如何在Hadoop上编写MapReduce程序

如题所述

举报该问题

推荐答案 æ¨èäº2016-10-27

ç¨æ·éç½®å¹¶å°ä¸ä¸ªHadoopä½ä¸æå°Hadoopæ¡æ¶ä¸ï¼Hadoopæ¡æ¶ä¼æè¿ä¸ªä½ä¸åè§£æä¸ç³»åmap tasks åreduce tasksãHadoopæ¡æ¶è´è´£taskåååæ§è¡ï¼ç»ææ¶éåä½ä¸è¿åº¦çæ§ã

ä¸å¾ç»åºäºä¸ä¸ªä½ä¸ä»å¼å§æ§è¡å°ç»ææç»åçé¶æ®µåæ¯ä¸ªé¶æ®µè¢«è°æ§å¶ï¼ç¨æ· or Hadoopæ¡æ¶ï¼ã

ä¸å¾è¯¦ç»ç»åºäºç¨æ·ç¼åMapRedueä½ä¸æ¶éè¦è¿è¡é£äºå·¥ä½ä»¥åHadoopæ¡æ¶èªå¨å®æçå·¥ä½ï¼

å¨ç¼åMapReduceç¨åºæ¶ï¼ç¨æ·åå«éè¿InputFormatåOutputFormatæå®è¾å¥åè¾åºæ ¼å¼ï¼å¹¶å®ä¹MapperåReduceræå®mapé¶æ®µåreduceé¶æ®µçè¦åçå·¥ä½ãå¨MapperæèReducerä¸ï¼ç¨æ·åªéæå®ä¸å¯¹key/valueçå¤çé»è¾ï¼Hadoopæ¡æ¶ä¼èªå¨é¡ºåºè¿ä»£è§£ææækey/valueï¼å¹¶å°æ¯å¯¹key/valueäº¤ç»MapperæèReducerå¤çãè¡¨é¢ä¸çæ¥ï¼Hadoopéå®æ°æ®æ ¼å¼å¿é¡»ä¸ºkey/valueå½¢å¼ï¼è¿äºç®åï¼å¾é¾è§£å³å¤æé®é¢ï¼å®éä¸ï¼å¯ä»¥éè¿ç»åçæ¹æ³ä½¿keyæèvalueï¼æ¯å¦å¨keyæèvalueä¸ä¿åå¤ä¸ªåæ®µï¼æ¯ä¸ªåæ®µç¨åéç¬¦åå¼ï¼æèvalueæ¯ä¸ªåºåååçå¯¹è±¡ï¼å¨Mapperä¸ä½¿ç¨æ¶ï¼å°å¶ååºååçï¼ä¿åå¤éä¿¡æ¯ï¼ä»¥è§£å³è¾å¥æ ¼å¼è¾å¤æçåºç¨ã

2.2 ç¨æ·çå·¥ä½

ç¨æ·ç¼åMapReduceéè¦å®ç°çç±»æèæ¹æ³æï¼

ï¼1ï¼ InputFormatæ¥å£

ç¨æ·éè¦å®ç°è¯¥æ¥å£ä»¥æå®è¾å¥æä»¶çåå®¹æ ¼å¼ãè¯¥æ¥å£æä¸¤ä¸ªæ¹æ³

public interface InputFormat<K, V> {

InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

RecordReader<K, V> getRecordReader(InputSplit split,

JobConf job,

Reporter reporter) throws IOException;

}

å¶ä¸getSplitså½æ°å°ææè¾å¥æ°æ®åænumSplitsä¸ªsplitï¼æ¯ä¸ªsplitäº¤ç»ä¸ä¸ªmap taskå¤çãgetRecordReaderå½æ°æä¾ä¸ä¸ªç¨æ·è§£æsplitçè¿ä»£å¨å¯¹è±¡ï¼å®å°splitä¸çæ¯ä¸ªrecordè§£æækey/valueå¯¹ã

Hadoopæ¬èº«æä¾äºä¸äºInputFormatï¼

ï¼2ï¼Mapperæ¥å£

ç¨æ·éç»§æ¿Mapperæ¥å£å®ç°èªå·±çMapperï¼Mapperä¸å¿é¡»å®ç°çå½æ°æ¯

void map(K1 key,

V1 value,

OutputCollector<K2,V2> output,

Reporter reporter

) throws IOException

å¶ä¸ï¼<K1 V1>æ¯éè¿Inputformatä¸çRecordReaderå¯¹è±¡è§£æå¤ç çï¼OutputCollectorè·åmap()çè¾åºç»æï¼Reporterä¿åäºå½åtaskå¤çè¿åº¦ã

Hadoopæ¬èº«æä¾äºä¸äºMapperä¾ç¨æ·ä½¿ç¨ï¼

ï¼3ï¼Partitioneræ¥å£

ç¨æ·éç»§æ¿è¯¥æ¥å£å®ç°èªå·±çPartitionerä»¥æå®map taskäº§ççkey/valueå¯¹äº¤ç»åªä¸ªreduce taskå¤çï¼å¥½çPartitionerè½è®©æ¯ä¸ªreduce taskå¤ççæ°æ®ç¸è¿ï¼ä»èè¾¾å°è´è½½åè¡¡ãPartitionerä¸éå®ç°çå½æ°æ¯

getPartition( K2 key, V2 value, int numPartitions)

è¯¥å½æ°è¿å<K2 V2>å¯¹åºçreduce task IDã

ç¨æ·å¦æä¸æä¾Partitionerï¼Hadoopä¼ä½¿ç¨é»è®¤çï¼å®éä¸æ¯ä¸ªhashå½æ°ï¼ã

ï¼4ï¼Combiner

Combinerä½¿å¾map taskä¸reduce taskä¹é´çæ°æ®ä¼ è¾éå¤§å¤§åå°ï¼å¯ææ¾æé«æ§è½ãå¤§å¤æ°æåµä¸ï¼Combinerä¸Reducerç¸åã

ï¼5ï¼Reduceræ¥å£

ç¨æ·éç»§æ¿Reduceræ¥å£å®ç°èªå·±çReducerï¼Reducerä¸å¿é¡»å®ç°çå½æ°æ¯

void reduce(K2 key,

Iterator<V2> values,

OutputCollector<K3,V3> output,

Reporter reporter

) throws IOException

Hadoopæ¬èº«æä¾äºä¸äºReducerä¾ç¨æ·ä½¿ç¨ï¼

ï¼6ï¼OutputFormat

ç¨æ·éè¿OutputFormatæå®è¾åºæä»¶çåå®¹æ ¼å¼ï¼ä¸è¿å®æ²¡æsplitãæ¯ä¸ªreduce taskå°å¶æ°æ®åå¥èªå·±çæä»¶ï¼æä»¶åä¸ºpart-nnnnnï¼å¶ä¸nnnnnä¸ºreduce taskçIDã

3. åå¸å¼ç¼å

Haoopä¸èªå¸¦äºä¸ä¸ªåå¸å¼ç¼åï¼å³DistributedCacheå¯¹è±¡ï¼æ¹ä¾¿map taskä¹é´æèreduce taskä¹é´å±äº«ä¸äºä¿¡æ¯ï¼æ¯å¦æäºå®éåºç¨ä¸ï¼ææmap taskè¦è¯»ååä¸ä¸ªéç½®æä»¶æèåå¸ï¼åå¯å°è¯¥éç½®æä»¶æèåå¸æ¾å°åå¸å¼ç¼åä¸ã

4. å¤è¯è¨ç¼åMapReduceä½ä¸

Hadoopéç¨javaç¼åï¼å èHadoopå¤©çæ¯æjavaè¯è¨ç¼åä½ä¸ï¼ä½å¨å®éåºç¨ä¸ï¼ææ¶åï¼å è¦ç¨å°éjavaçç¬¬ä¸æ¹åºæèå¶ä»åå ï¼è¦éç¨C/C++æèå¶ä»è¯è¨ç¼åMapReduceä½ä¸ï¼è¿æ¶åå¯è½è¦ç¨å°Hadoopæä¾çä¸äºå·¥å·ã

å¦æä½ è¦ç¨C/C++ç¼åMpaReduceä½ä¸ï¼å¯ä½¿ç¨çå·¥å·æHadoop StreamingæèHadoop Pipesã

å¦æä½ è¦ç¨Pythonç¼åMapReduceä½ä¸ï¼å¯ä»¥ä½¿ç¨Hadoop StreamingæèPydoopã

å¦æä½ è¦ä½¿ç¨å¶ä»è¯è¨ï¼å¦shellï¼phpï¼rubyçï¼å¯ä½¿ç¨Hadoop Streamingã

å³äºHadoop Streamingç¼ç¨ï¼å¯åè§æçè¿ç¯åæï¼ãHadoop Streamingç¼ç¨ã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://33.wendadaohang.com/zd/40RB0PPdR54B5PdW4c.html

相似回答

如何使用Python为Hadoop编写一个简单的MapReduce程序答：首先我们在Map程序中会接受到这批文档每一行的数据，然后我们编写的Map程序把这一行按空格切开成一个数组。并对这个数组遍历按"1"用标准的输出输出来，代表这个单词出现了一次。在Reduce中我们来统计单词的出现频率。PythonCodeMap:mapper.py#!/usr/bin/envpythonimportsys#mapswordstotheircountsword2count...

怎么在hadoop上运行mapreduce程序答：一、首先要知道此前提转载若在windows的Eclipse工程中直接启动mapreduc程序，需要先把hadoop集群的配置目录下的xml都拷贝到src目录下，让程序自动读取集群的地址后去进行分布式运行(您也可以自己写java代码去设置job的configuration属性)。

怎么在hadoop上部署mapreduce答：mapreduce程序是用java写的，写好传到linux系统里，使用hadoop相关命令运行就行了。命令apache官网上面有的

大家正在搜

用高级程序设计语言编写的程序汇编语言编写的程序通常用c语言编写的代码程序 c语言编写的程序被称为编写一个程序程序怎么编写程序编程软件如何编写代码编译程序