shuffle的关键阶段sort(Map端和Reduce端)源码分析
源码中有这样一段代码
1.Map端排序获取的比较器
publicRawComparatorgetOutputKeyComparator(){ //获取mapreduce.job.output.key.comparator.class,必须是RawComparator类型,如果没设置,是null ClasstheClass=getClass( JobContext.KEY_COMPARATOR,null,RawComparator.class); //如果用户自定义了这个参数,那么实例化用户自定义的比较器 if(theClass!=null) returnReflectionUtils.newInstance(theClass,this); //默认情况,用户是没用自定义这个参数 //判断Map输出的key,是否是WritableComparable的子类 //如果是,调用当前类的内部的Comparator! returnWritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class),this); }
总结:如何对感兴趣的数据进行排序?
①数据必须作为key
②排序是框架自动排序,我们提供基于key的比较器,也就是Comparator,必须是RawComparator类型
a)自定义类,实现RawComparator,重写compare()
指定mapreduce.job.output.key.comparator.class为自定义的比较器类型
b)key实现WritableComparable(推荐)
③实质都是调用相关的comparaTo()方法,进行比较
2.Reduce端进行分组的比较器
RawComparatorcomparator=job.getOutputValueGroupingComparator(); //获取mapreduce.job.output.group.comparator.class,必须是RawComparator类型 //如果没用设置,直接获取MapTask排序使用的比较器 //也是比较key publicRawComparatorgetOutputValueGroupingComparator(){ ClasstheClass=getClass( JobContext.GROUP_COMPARATOR_CLASS,null,RawComparator.class); if(theClass==null){ returngetOutputKeyComparator(); } //如果设置了,就使用设置的比较器 returnReflectionUtils.newInstance(theClass,this); }
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。