学科分类
目录
Hadoop技术栈

Combiner组件

在Map阶段输出可能会产生大量相同的数据,例如<hello,1>、<hello,1>……,势必会降低Reduce聚合阶段的执行效率。Combiner组件的作用就是对Map阶段的输出的重复数据先做一次合并计算,然后把新的(key,value)作为Reduce阶段的输入。图1描述的就是Combiner组件对Map的合并操作。

img

​ 图1 Combiner组件的合并操作

Combiner组件是MapReduce程序中的一种重要的组件,如果想自定义Combiner,我们需要继承Reducer类,并且重写reduce()方法。接下来,我们针对词频统计案例编写一个Combiner组件,演示如何创建和使用Combiner组件,具体代码,如文件所示。

文件 WordCountCombiner.java

 1  import java.io.IOException;

 2  import org.apache.hadoop.io.IntWritable;

 3  import org.apache.hadoop.io.Text;

 4  import org.apache.hadoop.mapreduce.Reducer;

 5  public class WordCountCombiner extends Reducer<Text, 

 6                    IntWritable, Text, IntWritable> {

 7    @Override

 8    protected void reduce(Text key, Iterable<IntWritable> values,

 9        Reducer<Text, IntWritable, Text, IntWritable>.Context 

 10            context) throws IOException, InterruptedException {

 11     // 局部汇总

 12     int count = 0;

 13     for (IntWritable v : values) {

 14       count += v.get();

 15     }

 16     context.write(key, new IntWritable(count));

 17   }

 18 }

文件是自定义Combiner类,它的作用就是将key相同的单词汇总(这与WordCountReducer类的reduce()方法相同,也可以直接指定WordCountReducer作为Combiner类),另外还需要在主运行类中为Job设置Combiner组件即可,具体代码如下:

wcjob.setCombinerClass(WordCountCombiner.class);

小提示:

执行MapReduce程序,添加与不添加Combiner结果是一致的。通俗的讲,无论调用多少次Combiner,Reduce的输出结果都是一样的,因为Combiner组件不允许改变业务逻辑。

点击此处
隐藏目录