全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
952 0
2022-03-28
简介
大数据必须具有分布式存储以及分布式计算才能够处理。 有了Spark之后使用Python开发Spark程序,常用的机器学习API有两种:Spark Mllib (ROD-Based 机器学习API) 和Spark ML Pipeline机器学习API。

Spark ML Pipeline是Spark受Scikit-Learn程序启发所设计的机器学习架构。其工作流程与石油管道类似,就是将机器学习的每—个阶段建立成Pipeline流程:利用Spark DataFrame提供的API轻松读取大数据中的各种数据源,通过SparkDataFrame 与PandasDataFrame相互转化,轻松实现数据处理、建模、预测,最后产生预测结果。

本阶段的学习是PySpark学习中最重要的内容, 学员完成该内容的学习,能够掌握重要的Spark机器学习工具,能够在大数据集群上实现分布式机器学习运算,胜任大数据分析领域中中高级岗位。

课程内容
大数据分析利器:spark_mllib

课程地址:《CDA大数据就业班体验课——大数据分析利器:Spark_MLlib》
DA内容精选


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群