全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
977 0
2022-03-04

【你将会学到】
1、spark架构原理及运行模式、代码执行原理、安装部署方式
2、键值对RDD创建方法、常用键值对转换操作
3、PySpark常用模块与类


【课程内容】
    第1节 spark架构原理及运行模式、代码执行原理、安装部署方式-1
    第2节 spark架构原理及运行模式、代码执行原理、安装部署方式-2
    第3节 spark架构原理及运行模式、代码执行原理、安装部署方式-3
    第4节 spark架构原理及运行模式、代码执行原理、安装部署方式-4
    第5节 spark架构原理及运行模式、代码执行原理、安装部署方式-5
    第6节 键值对RDD创建方法、常用键值对转换操作-1
    第7节 键值对RDD创建方法、常用键值对转换操作-2
    第8节 键值对RDD创建方法、常用键值对转换操作-3
    第9节 键值对RDD创建方法、常用键值对转换操作-4
    第10节 键值对RDD创建方法、常用键值对转换操作-5
    第11节 键值对RDD创建方法、常用键值对转换操作-6
    第12节 pyspark.sql、pyspark.streaming、pyspark.ml-1
    第13节 pyspark.sql、pyspark.streaming、pyspark.ml-2
    第14节 pyspark.sql、pyspark.streaming、pyspark.ml-3
    第15节 pyspark.sql、pyspark.streaming、pyspark.ml-4
    第16节 pyspark.sql、pyspark.streaming、pyspark.ml-5


【授课形式】
线上录播


【课程说明】
目前Spark支持多种语言,包括Scala、Python、R、Java。开发者可以根据实际应用环境决定使用哪种语言程序。当我们需要用Spark做程序开发的时候,我们更多的是选择Java,做机器学习时,我们通常会选择Python或R,Spark会很好的集成开发语言的特性,在Spark上使用各种开发语言与开发语言在本地环境使用方法相同。但需要注意的是,Spark的底层开发语言是Scala,因此与Spark兼容性最好的语言实际上是Scala。但Scala语言本身可读性较Python、R这类解释型语言而言,要差很多。
我们还是经常使用Python语言作为Spark操作语言去进行机器学习等任务。原因很简单,Python是数据分析很常用的程序设计语言,程序代码简单、明了、可读性强、生产率高、并且面向对象、属于函数式动态编程语言,且应用领域广泛。加上Python提供了强大的第三方库、第三方工具的接口(如NumPy、Pandas、Matplotlib、Scikit-Learn等),使Python成为数据分析的主要语言之一。因此我们想要在分布式平台流式处理框架上进行海量数据数据分析或机器学习工作,选择Python Spark实际上就是运用Python语言在Spark平台开发程序,使用HDFS分布式存储系统来存储海量数据,再用Python语言调用Pandas和Scikit-Learn等库进行数据分析和机器学习。
Spark还集成了很多功能,常用的Spark功能模块有:专门用来处理流式数据的Spark Streaming模块,用于做机器学习的Spark ML、Spark MLlib模块,以及Spark GraphX、SparkConf、SparkContext、SparkRDD、SparkBroadcast、Accumulator模块等。这些模块使Spark成为效率极高、适用性极强、容错率较高的集群运算系统。
CDA大数据分就业班将PySpark作为重要的内容设置,将会从RDD基础操作入手,带领学员逐步掌握Spark其他常用功能模块的操作与运用。学员完成该阶段学习将能够迅速掌握Spark机器学习的知识,并能够在集群架构上实现数据分析和机器学习建模,极大的保障了海量数据下机器学习工作的顺利开展。


【要求】
有一个稳定的运行环境
有一定的逻辑思维
有一定的分析能力和的洞察力


【本课程包括】
3天的线上录播课程


进入课程:《PySpark编程》

DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群