一、RDD的创建方式
Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的
转换,来实现具体的算法。Spark中的基本方式:
1)使用程序中的集合创建,这种方式的实际意义主要用于测试;
2)使用本地文件系统创建,这种方式的实际意义主要用于测试大量数据的文件;
3)使用HDFS创建RDD,这种方式为生产环境中最常用的创建RDD的方式;
4)基于DB创建;
5)基于NoSQL。例如HBase;
6)基于S3(SC3)创建;
7)基于数据流创建。
二、RDD创建实战
1)通过集合创建,代码如下:
结果如下所示:
2) 通过本地文件系统创建,代码如下:
结果如下:
3)通过HDFS创建RDD,代码如下:
结果如下所示:
注:本学习笔记来自DT大数据梦工厂