全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
934 1
2018-02-06
最近想尝试使用 SparkR来处理大数据,阅读了官方文档后还是疑惑很多,希望论坛大神们帮忙解惑!

1. SparkR读取 HIVE 表之后, 是拉取到本地内存里么?之前我用 RJDBC 取一些 HIVE 的表都是拉取在内存中,并在内存中进行的运算和处理。请问 SparkR的机制也是如此么?
2. SparkR 的 lapply 和 dapply 的区别是什么?
3. SparkR可以应用其他 package 的函数或者方法么?例如 stringr 的 str_ 的各种函数方法。
4. 需要占用大量本地内存呢, 还是在集群上运行呢?

很多问题很小白, 也请大神们多多赐教!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-2-7 17:08:25
Spark本来就是基于内存的计算引擎.
你先看看官方文档吧.还有spark的基本框架.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群