java-spark中各种常用算子的写法示例
Spark的算子的分类
从大方向来说,Spark算子大致可以分为以下两类:
1)Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。
Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到有Action操作的时候才会真正触发运算。
2)Action行动算子:这类算子会触发SparkContext提交Job作业。
Action算子会触发Spark提交作业(Job),并将数据输出Spark系统。
从小方向来说,Spark算子大致可以分为以下三类:
1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。
2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。
3)Action算子,这类算子会触发SparkContext提交Job作业。
引言
通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了
一、map
map在进行数据处理、转换的时候,不能更常用了
在使用map之前首先要定义一个转换的函数格式如下:
FunctiontransForm=newFunction (){//String是某一行的输入类型LabeledPoint是转换后的输出类型 @Override publicLabeledPointcall(Stringrow)throwsException{//重写call方法 String[]rowArr=row.split(","); introwSize=rowArr.length; double[]doubleArr=newdouble[rowSize-1]; //除了第一位的lable外其余的部分解析成double然后放到数组中 for(inti=1;i 需要特别注意的是:
1、call方法的输入应该是转换之前的数据行的类型 返回值应是处理之后的数据行类型
2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化比如
publicclassTreeEnsembleimplementsSerializable{ }3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final
然后就是在合适的时候调用该转换函数了
JavaRDDrdd=oriData.toJavaRDD().map(transForm); 这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心
二、filter
在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能
这里首先也是要定义一个函数,该函数给定数据行返回布尔值实际效果是将返回为true的数据保留
FunctionboolFilter=newFunction (){//String是某一行的输入类型Boolean是对应的输出类型用于判断数据是否保留 @Override publicBooleancall(Stringrow)throwsException{//重写call方法 booleanflag=row!=null; returnflag; } }; 通常该函数实际使用中需要修改的仅仅是row的类型也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean
然后是调用方式
JavaRDDrdd=oriData.toJavaRDD().filter(boolFilter); 三、mapToPair
该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行输出的是一个元组,最常用的方法是用来做交叉验证或者统计错误率召回率计算AUC等等
同样,需要先定义一个转换函数
Functiontransformer=newPairFunction (){//LabeledPoint是输入类型后面的两个Object不要改动 @Override publicTuple2call(LabeledPointrow)throwsException{//重写call方法通常只改动输入参数输出不要改动 doublepredicton=thismodel.predict(row.features()); doublelabel=row.label(); returnnewTuple2(predicton,label); } }); 关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型
相应的调用如下:
JavaPairRDD然后对该predictionsAndLabels的使用,计算准确率、召回率、精准率、AUC,接下来的博客中会有,敬请期待
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对毛票票的支持。