PySpark实战指南从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。
目录
第1章 了解Spark
第2章 弹性分布式数据集
第3章 DataFrame
第4章 准备数据建模
第5章 MLlib介绍
第6章 ML包介绍
第7章 GraphFrames
第8章 TensorFrames
第9章 使用Blaze实现混合持久化
第10章 结构化流
第11章 打包Spark应用程序