欢迎来到代码驿站!

JAVA代码

当前位置:首页 > 软件编程 > JAVA代码

shuffle的关键阶段sort(Map端和Reduce端)源码分析

时间:2021-04-07 10:16:57|栏目:JAVA代码|点击:

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {
  // 获取mapreduce.job.output.key.comparator.class,必须是RawComparator类型,如果没设置,是null
  Class<? extends RawComparator> theClass = getClass(
   JobContext.KEY_COMPARATOR, null, RawComparator.class);
  // 如果用户自定义了这个参数,那么实例化用户自定义的比较器
  if (theClass != null)
   return ReflectionUtils.newInstance(theClass, this);
  // 默认情况,用户是没用自定义这个参数
  // 判断Map输出的key,是否是WritableComparable的子类
 //  如果是,调用当前类的内部的Comparator!
  return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
 }

总结: 如何对感兴趣的数据进行排序?

             ① 数据必须作为key

             ② 排序是框架自动排序,我们提供基于key的比较器,也就是Comparator,必须是RawComparator类型

                            a) 自定义类,实现RawComparator,重写compare()

                                          指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

                            b)key实现WritableComparable(推荐)

              ③ 实质都是调用相关的comparaTo()方法,进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class,必须是RawComparator类型
// 如果没用设置,直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
  Class<? extends RawComparator> theClass = getClass(
   JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
  if (theClass == null) {
   return getOutputKeyComparator();
  }
  // 如果设置了,就使用设置的比较器
  return ReflectionUtils.newInstance(theClass, this);
 }

总结

上一篇:深入理解java虚拟机的故障处理工具

栏    目:JAVA代码

下一篇:浅析Java设计模式编程中的单例模式和简单工厂模式

本文标题:shuffle的关键阶段sort(Map端和Reduce端)源码分析

本文地址:http://www.codeinn.net/misctech/96615.html

推荐教程

广告投放 | 联系我们 | 版权申明

重要申明:本站所有的文章、图片、评论等,均由网友发表或上传并维护或收集自网络,属个人行为,与本站立场无关。

如果侵犯了您的权利,请与我们联系,我们将在24小时内进行处理、任何非本站因素导致的法律后果,本站均不负任何责任。

联系QQ:914707363 | 邮箱:codeinn#126.com(#换成@)

Copyright © 2020 代码驿站 版权所有