SparkR是R的一个包,从R上提供一个轻量级前端使用Apache Spark,即提供了Spark中弹性分布式数据集的API(applicationprogramming interface ),用户可以在集群上通过Rshell交互性地运行job。Spark的 API由Spark Core的API以及各个内置的高层组件(Spark Streaming,Spark SQL,ML Pipelines和MLlib,Graphx)的API组成,目前SparkR只提供了Spark的两组API的R语言封装,即Spark Core的RDDAPI和Spark SQL的DataFrame API。
目前感觉sparkR的DataFrame API比较成熟了,且容易操作,但是用的算法包目前spark2.1.0才十几个,不能直接运用R自带包。 而 sparkR RDD API 操作可以调用R自带包,但操作比较麻烦(这块现在不会做,求大神指导)!!??
欢迎入群互相交流 188529107
自己做了个sparkR的图大神看看对不对!!