课程简介
CDA大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux操作系统入门知识学起,系统介绍Hadoop、HDFS、MapReduce、Hive和Hbase等理论知识和基于Spark平台的大数据分析和机器学习应用,详细演示Hadoop三种模式的安装配置,以案例的形式,讲解基于PySpark技术的回归、分类和聚类分析等大数据分析场景和案例。课程的重点是培养学员基于Hadoop架构的大数据分析实操能力,从零开始学习hadoop搭建,掌握Spark。讲解案例包括但不限于金融大数据分析、气象大数据分析、Web海量日志大数据分析、智慧高速大
数据分析等。
学习目标
掌握使用Hadoop架构应用于大数据分析
掌握使用大数据分析之数据库理论和工具Mysql、Hbase、Hive和Sqoop
掌握使用Spark-SQL进行交互式数据查询
掌握使用Spark-Streaming流式计算框架
掌握使用Spark-MLlib进行
机器学习
掌握使用Spark-GraphX进行图计算
掌握使用Pyspark进行大数据分析和机器学习
掌握企业真实的大数据分析场景案例
学习对象和基础
大数据业务工作迟迟得不到进展人士
针对数据分析、
数据挖掘岗位转型、提拔涨薪、技能优化等的职场白领
未来准备从事大数据相关工作的计算机专业大学生人群
需要有统计学基础和编程基础最佳(Java或Python)
岗位职责
应用机器学习等技术对海量数据建模及分析,包括但不限于数据挖掘、数据分析等。
根据需求学习前沿机器学习算法,并完善已有算法的研发,以提高模型实战效果。
全流程参与产品设计与研发,实时监测模型实战效果,持续提升产品价值。
完成上级领导安排的其他工作。
岗位要求
本岗位要求本科或以上学历,自于对思维能力要求较高的理工类专业,例如数学,统计,计量经济学,计算机,金融工程,理论物理等,具备扎实的数学与统计基础,熟练掌握微积分、线代代数,概率论,数理统计等学科的理论和应用。
对于机器学习算法有深入的了解,熟练运用SQL、R、Python等工具。
具有突出的分析问题和解决问题的能力,较强的自我驱动力,学习能力及沟通协调能力。
对于未知领域有强烈的好奇心,敢于尝试新鲜事物,在过往的学习及工作经历中表现出卓著的创造力。具备批判性思维,了解模型的假设与限制,实践中的优缺点,缺失/异常数据的处理等,不局限于使用现成的软件包。
目标人群
对大数据分析感兴趣的计算机数学等理工科背景的学生
对大数据感兴趣从事数据开发、数据管理、数据治理等人员
有意向转行大数据分析岗位的数据分析师
有意向从事大数据相关职业的java工程师
课程内容
第1章预习课程
大数据分析基础
Linux&Ubuntu操作系统基础
第2章大数据前沿应用与开源框架Hadoop
大数据时代前沿与技术
Hadoop生态系统和技术栈
Hadoop单机环境搭建
Hadoop伪分布式集群搭建
Hadoop完全分布式集群搭建
安装和使用Ubuntu系统
HDFS分布式文件系统介绍
HFDS进行文件读写操作
MapReduce编程概念、框架和流程
Hadoop & Yarn知识介绍
第3章分布式数据仓库技术-Hbase/Hive
Hbase简介与架构
Hbase集群模式安装
Hbase Shell详解
Hive基础知识
Hive技术架构
Hive DDL与DML语言介绍
第4章关系型数据库技术-Mysql理论及实战
数据库的概念与技术、创建数据库
数据表操作、数据类型与约束条件
数据表插入数据与导入外部数据方法
检查与修改数据表
SQL常用函数介绍
SQL单表查询与多表查询
查询操作符与子查询
SQL实战:使用SQL语句处理及查询电商业务数据
第5章分布式计算引擎-Spark入门
Scala语法知识介绍
Scala函数
Scala对象操作
Spark简介
Spark运行架构
RDD的创建和操作
Spark SQL简介
临时表和SQL查询
第6章分布式计算引擎-Spark进阶
日志采集系统Flume和分布式消息队列Kafka入门
流式计算框架Spark Streaming基本原理及使用方法
流式计算框架Structured Streaming基本原理及使用方法
Spark GraphX入门及基本使用方法
分布式算法库Spark MlLib入门介绍
Spark ML与Spark MLLib
机器学习工作流
机器学习项目-房价预测
第7章大数据可视化
绘图思想的基本原理
Python数据可视化包-Matplotlib介绍
使用Matplotlib进行基本的图形绘制
使用Python数据处理包Pandas做可视化
Python数据可视化包-Seaborn介绍与图形绘制
Python数据可视化包-Pyecharts介绍与图形绘制
数据可视化技巧与方法
第8章大数据与Python结合-Pyspark机器学习
Spark数据结构及编程语言接口
PySpark开发环境搭建
PySpark编程入门:Spark基本数据结构
PySpark编程入门:PySpark常用语句
Spark与分布式数据库和分布式数据仓库的集成方法
采用PySpark读取分布式数据库中数据
PySpark数据清洗案例
数据挖掘和机器学习的基本思想与方法论
机器学习部分算法串讲:有监督、无监督、半监督
机器学习实战项目介绍
第9章大数据企业项目案例实做
大数据交通案例
课程地址:
《大数据分析师-试听课》
DA内容精选