关于 SparkR的问题

1026

收藏 2018-02-06

最近想尝试使用 SparkR来处理大数据，阅读了官方文档后还是疑惑很多，希望论坛大神们帮忙解惑！

1. SparkR读取 HIVE 表之后，是拉取到本地内存里么？之前我用 RJDBC 取一些 HIVE 的表都是拉取在内存中，并在内存中进行的运算和处理。请问 SparkR的机制也是如此么？
2. SparkR 的 lapply 和 dapply 的区别是什么？
3. SparkR可以应用其他 package 的函数或者方法么？例如 stringr 的 str_ 的各种函数方法。
4. 需要占用大量本地内存呢，还是在集群上运行呢？

很多问题很小白，也请大神们多多赐教！