1、创建RDD,代码如下:
2、Map:适用于任何集合,且对其作用的集合中的每一个元素循环遍历,并调用其作为参数的函数对每一个遍历的元素进行具体化处理。代码如下:
结果如下所示:
3、Filter:遍历集合中的所有元素,将每个元素作为参数放入函数中进行判断,将判断结果为真的元素筛选出来。代码如下:
结果如下所示:
4、Flatmap:通过传入的作为参数的函数来作用与RDD的每个字符串进行单词切分,然后把切分后的结果合并成一个大的集合。代码如下:
结果如下所示:
5、groupByKey:将传入的tuple数组生成为RDD,通过groupByKey方法将RDD通过key进行分组汇总,并生成一个新的RDD。代码如下:
结果如下所示:
6、reduceByKey:对key相同的元素进行value值得相加。代码如下:
文件内容如下所示:
结果如下所示:
7、join:根据相同key,把不同的RDD合并为一个RDD。代码如下:
结果如下所示:
8、cogroup:协同分组,首先将两个RDD的内容进行join,在此基础上,以ID为key的情况下将改ID内容的所有分数聚合到一起。代码如下:
结果如下所示:
注:本学习笔记来自DT大数据梦工厂