微客导航 » 文章资讯 » shuffle的关键阶段sort(Map端和Reduce端)源码分析

shuffle的关键阶段sort(Map端和Reduce端)源码分析

2023-09-01 16:06:05 432

源码中有这样一段代码

1.Map端排序获取的比较器

publicRawComparatorgetOutputKeyComparator(){
//获取mapreduce.job.output.key.comparator.class，必须是RawComparator类型，如果没设置，是null
ClasstheClass=getClass(
JobContext.KEY_COMPARATOR,null,RawComparator.class);
//如果用户自定义了这个参数，那么实例化用户自定义的比较器
if(theClass!=null)
returnReflectionUtils.newInstance(theClass,this);
//默认情况，用户是没用自定义这个参数
//判断Map输出的key，是否是WritableComparable的子类
//如果是，调用当前类的内部的Comparator!
returnWritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class),this);
}

总结：如何对感兴趣的数据进行排序？

①数据必须作为key

②排序是框架自动排序，我们提供基于key的比较器，也就是Comparator，必须是RawComparator类型

a)自定义类，实现RawComparator，重写compare()

指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

b）key实现WritableComparable(推荐)

③实质都是调用相关的comparaTo()方法，进行比较

2.Reduce端进行分组的比较器

RawComparatorcomparator=job.getOutputValueGroupingComparator();
//获取mapreduce.job.output.group.comparator.class，必须是RawComparator类型
//如果没用设置，直接获取MapTask排序使用的比较器
//也是比较key
publicRawComparatorgetOutputValueGroupingComparator(){
ClasstheClass=getClass(
JobContext.GROUP_COMPARATOR_CLASS,null,RawComparator.class);
if(theClass==null){
returngetOutputKeyComparator();
}
//如果设置了，就使用设置的比较器
returnReflectionUtils.newInstance(theClass,this);
}

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

返回顶部
3162201930
czq8825@qq.com

shuffle的关键阶段sort(Map端和Reduce端)源码分析

热门推荐

随机推荐