>>>>
作者简介
Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。
>>>>内容推荐
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
>>>>目录
第1章 Spark数据分析导论
第2章 Spark下载与入门
第3章 RDD编程
第4章 键值对操作
第5章 数据读取与保存
第6章 Spark编程进阶
第7章 在集群上运行Spark
第8章 Spark调优与调试
第9章 Spark SQL
第10章 Spark Streaming
第11章 基于MLlib的机器学习
· · · · · ·
>>>>媒体评论
“Spark是构建大数据应用流行的框架,而如果有人要我推荐一些指南书籍,《Spark快速大数据分析》无疑会排在首位。”
——Ben Lorica,O'Reilly首席数据科学家
>>>评论