CDA大数据就业班体验课——大数据分析利器:Spark_MLlib

952

收藏 2022-03-28

简介
大数据必须具有分布式存储以及分布式计算才能够处理。有了Spark之后使用Python开发Spark程序，常用的机器学习API有两种：Spark Mllib (ROD-Based 机器学习API) 和Spark ML Pipeline机器学习API。

Spark ML Pipeline是Spark受Scikit-Learn程序启发所设计的机器学习架构。其工作流程与石油管道类似，就是将机器学习的每—个阶段建立成Pipeline流程：利用Spark DataFrame提供的API轻松读取大数据中的各种数据源，通过SparkDataFrame 与PandasDataFrame相互转化，轻松实现数据处理、建模、预测，最后产生预测结果。

本阶段的学习是PySpark学习中最重要的内容，学员完成该内容的学习，能够掌握重要的Spark机器学习工具，能够在大数据集群上实现分布式机器学习运算，胜任大数据分析领域中中高级岗位。

课程内容
大数据分析利器：spark_mllib

课程地址：《CDA大数据就业班体验课——大数据分析利器:Spark_MLlib》
DA内容精选

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群