全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 spark高速集群计算平台
1946 0
2016-05-13

一、RDD的创建方式


Spark应用程序运行过程中,第一个RDD代表了Spark应用程序输入数据的来源,之后通过Trasformation来对RDD进行各种算子的

转换,来实现具体的算法。Spark中的基本方式:

1)使用程序中的集合创建,这种方式的实际意义主要用于测试;

2)使用本地文件系统创建,这种方式的实际意义主要用于测试大量数据的文件;

3)使用HDFS创建RDD,这种方式为生产环境中最常用的创建RDD的方式;

4)基于DB创建;

5)基于NoSQL。例如HBase;

6)基于S3(SC3)创建;

7)基于数据流创建。


二、RDD创建实战

1)通过集合创建,代码如下:

复制代码

结果如下所示:

9XC0)$N0U]H48CW8_9DWF4X.png



2) 通过本地文件系统创建,代码如下:

复制代码

结果如下:

IYZ8]MX$[~EDI[4YZUD6P8T.png


3)通过HDFS创建RDD,代码如下:

复制代码

结果如下所示:

U)K2{SE2NT)MDG]Q0GFJ0R7.png



注:本学习笔记来自DT大数据梦工厂

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群