全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 spark高速集群计算平台
2120 0
2016-05-13

1、创建RDD,代码如下:

复制代码

2、Map:适用于任何集合,且对其作用的集合中的每一个元素循环遍历,并调用其作为参数的函数对每一个遍历的元素进行具体化处理。代码如下:

复制代码

结果如下所示:

R`B53N(W@(TPE{M{V`N%5$W.png


3、Filter:遍历集合中的所有元素,将每个元素作为参数放入函数中进行判断,将判断结果为真的元素筛选出来。代码如下:

复制代码

结果如下所示:

D]VV4YY}4~WFH0W{58`0.png


4、Flatmap:通过传入的作为参数的函数来作用与RDD的每个字符串进行单词切分,然后把切分后的结果合并成一个大的集合。代码如下:

复制代码

结果如下所示:

%R503VB`L~K}V{)GUE62JDJ.png


5、groupByKey:将传入的tuple数组生成为RDD,通过groupByKey方法将RDD通过key进行分组汇总,并生成一个新的RDD。代码如下:

复制代码

结果如下所示:

42N)QO%U5D47UGL9~VGZQ47.png


6、reduceByKey:key相同的元素进行value值得相加。代码如下:

复制代码

文件内容如下所示:

_{7HGINR@IF~E[U_$VQ)@70.png

结果如下所示:

6B@7}_$R[EGEV5X{{]{H1.png


7、join:根据相同key,把不同的RDD合并为一个RDD。代码如下:

复制代码

结果如下所示:

[8VRPB5RUAN8H`V4X2H(G}D.png


8、cogroup:协同分组,首先将两个RDD的内容进行join,在此基础上,以ID为key的情况下将改ID内容的所有分数聚合到一起。代码如下:

复制代码

结果如下所示:

}Z6SK6QMZR04DD9D@9JEWWB.png



注:本学习笔记来自DT大数据梦工厂


附件列表
]_TVZDZRFYL`@A`Q_6LQ[)O.png

原图尺寸 3.09 KB

]_TVZDZRFYL`@A`Q_6LQ[)O.png

Z7DC(~U%JB8D1W]5WUX8F{R.png

原图尺寸 44.52 KB

Z7DC(~U%JB8D1W]5WUX8F{R.png

Z[~L17F04}%[2}P17TE55FV.png

原图尺寸 4.35 KB

Z[~L17F04}%[2}P17TE55FV.png

TQ~)_[JFIBXIXI{B%14JI@1.png

原图尺寸 6.01 KB

TQ~)_[JFIBXIXI{B%14JI@1.png

N]P64%X9(Q]5)%KMF~NT``R.png

原图尺寸 5.62 KB

N]P64%X9(Q]5)%KMF~NT``R.png

5K3K{W6HJ8MD35OAKU5D0Y9.png

原图尺寸 7.93 KB

5K3K{W6HJ8MD35OAKU5D0Y9.png

EFZ77RS_E8QGKY[NEB0~C@Y.png

原图尺寸 2.77 KB

EFZ77RS_E8QGKY[NEB0~C@Y.png

J$FX929WC}91I32653H@T8A.png

原图尺寸 2.31 KB

J$FX929WC}91I32653H@T8A.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群