最近想尝试使用 SparkR来处理大数据,阅读了官方文档后还是疑惑很多,希望论坛大神们帮忙解惑!
1. SparkR读取 HIVE 表之后, 是拉取到本地内存里么?之前我用 RJDBC 取一些 HIVE 的表都是拉取在内存中,并在内存中进行的运算和处理。请问 SparkR的机制也是如此么?
2. SparkR 的 lapply 和 dapply 的区别是什么?
3. SparkR可以应用其他 package 的函数或者方法么?例如 stringr 的 str_ 的各种函数方法。
4. 需要占用大量本地内存呢, 还是在集群上运行呢?
很多问题很小白, 也请大神们多多赐教!