大数据分析师的知识结构是卡位DT时代的基础能力

ZQZ520

26625

137

收藏 2017-06-22

一、大数据分析师和JAVA程序员有什么区别？

Hadoop架构基于java程序设计，因此大批的IT人士在大数据时代找到了自己的职业锚，而且最快地进入了这个行业，成为了最早的大数据分析师。但IT人士的宿命就在于他们太IT了，他们热衷于计算更快、处理更高效的程序设计，而忽略了大数据分析的本意是为企业带来商业价值，因此他们只能是大数据分析工程师，而真正的大数据分析师不必成为一个优秀的JAVA程序员，但应当熟悉Hadoop技术架构和算法设计，结合大数据工具，运用数据分析方法和机器学习算法，为业务做支撑，创造更大的商业价值。

二、大数据分析师区别于普通的数据分析师？

普通的数据分析师具有一定的数理统计基础，熟悉业务逻辑，能熟练地操作传统的数据分析软件，能使数据成为企业的智慧。他们通常遇到的都是一些结构化、体量小的小数据。而大数据分析师更专注数据获取的架构设计、数据分析模型的选择、指标的选取，他们具有数据分析师的理论素养和业务能力，面对大数据，他们有一整套分布式的数据获取、存储、处理和分析的方案，而且这个方案最终的目标是为数据分析服务，他们具有大数据分析的利器，如Hadoop、Spark等软件，他们做的更多的工作是如何将非结构化和结构化的大数据过滤成结构化的小数据，从而使更多的普通数据分析师有用武之地。

三、CDA大数据学习心得(徐学员)

Hadoop的核心框架是Hdfs和MapReduce。Hdfs是分布式文件系统，其主要作用是存储及读取数据。而MapReduce实际上是Hadoop工作的核心思想。任何想要在Hadoop集群上完成的算法都必须基于MapReduce的思想实现。我认为想要学习Hadoop，其核心在于充分理解MapReduce。而同时，MapReduce的理解也是理解大数据分析思想的关键，即如何将庞大的数据分解成可以进行操作的小数据集。

CDA大数据分析师课程大致可分为如下几个部分(阐述并不是按照时间顺序，而是按照个人对于这个课程的理解)。

第一部分是原理及背景的讲解：个人认为，这一部分其实是重点，因为涉及到了大数据分析的核心，也包括了Hadoop的运行原理。例如1.0版本与2.0版本的差异，其核心在于2.0版本增加了独立的资源管理器Yarn，这极大的提升了Hadoop处理海量数据时的效率。

第二部分是搭建平台:从最初的单机模式，至伪分布模式，到最终的集群模式。这部分内容中核心的部分是如何写好配置文件，在这里课程中也会涉及到核心参数的介绍，这对于理解Hadoop平台及今后自己如何配置Hadoop集群模式都是十分有用的。

第三部分是Mahout是建立在Hadoop平台上的软件，其中集成了许多很有用的算法。这些算法往往不是十分前沿的，但在处理海量数据时往往可以显现出强大的作用。课程中对于Mahout的讲解也是十分仔细的，因为它是目前最为常用且方便的分析海量数据的软件。

第四部分是对于自己想编写MapReduce的学员，这部分内容其实是十分关键的。因为我认为想真正成为一个大数据分析师，仅仅会用Mahout上现成的算法是远远不够的。修改已有的算法甚至是构造新算法都是一个想真正进入这一行业的从业人员所必需的。课程中也会涉及到怎样在源文件中修改MapReduce程序，从而实现自带的算法所不具有的功能。从这一点上也体现了课程的深度；第五部分是对Hadoop整体生态环境的介绍，介绍并在Hadoop平台上搭载了如Hive, HBase等等常用的应用。对于其优劣势也有较为详细的介绍，例如Hive可以利用HQL语句进行数据库操作，便于那些熟悉SQL语句的DB管理人员操作。而HBase是一种面向列的数据库，使得查询及插入数据更高效。相较于Hive，HBASE显然更适用与海量数据的管理，这些对于Hadoop整体生态环境的介绍体现了课程一定的广度。

第五部分是Spark运行速度如此之快，主要得益于以下两方面：一方面Spark中的运算大多是基于内存的。Spark提出了一种分布式的内存抽象，称为弹性分布式数据集（RDD，ResilientDistributed Datasets）。RDD支持基于工作集的应用，同时具有数据流模型的特点：自动容错、位置感知调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。另一方面，Spark从稳定的物理存储（如分布式文件系统）中加载记录，记录被传入由一组确定性操作构成的DAG，然后写回稳定存储。DAG数据流图能够在运行时自动实现任务调度和故障恢复。尽管非循环数据流是一种很强大的抽象方法，但仍然有些应用无法使用这种方式描述。Spark能够在多个并行操作之间重用工作数据集，适用于非循环数据流模型难以处理的应用。

CDA大数据讲师分享企业大数据应用

PS：CDA大数据就业班发福利了，6月24日全天免费直播，QQ交流群 174921162

工资要加剧，就学大数据，转行大数据领域的朋友要抓紧了，CDA大数据周末班和就业班任你选择，报名学员赠送往期预习视频。

（8天周末班）

（3个月就业班）

在线咨询：

座机：010-68456523（张老师）

QQ：2881989712

邮箱：zhangwei@pinggu.org

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

ZQZ520

2017-6-22 09:53:18

大数据时代，他们有一整套分布式的数据获取、存储、处理和分析的方案，而且这个方案最终的目标是为数据分析服务，他们具有大数据分析的利器。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

littlelianglian

2017-6-22 10:24:46

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

PLMKI

2017-6-22 11:22:43

当前医疗行业、能源行业、通信行业、零售业、金融行业、体育行业等各行业都可以从其数据的采集、传输、存储、分析等各个环节产生巨大的经济价值，而提供大数据基础设施的企业、大数据软件技术服务的企业、行业大数据内容咨询服务的企业都将从大数据的广泛应用而得到快速发展。
但是，目前市场上合格的大数据分析人才稀缺，所以大数据人才的薪资非常高，入行越早，随着实践经验的增加，身价也随着更高。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

0795fights

2017-6-22 13:27:09

Spark运行速度如此之快，主要得益于以下两方面：一方面Spark中的运算大多是基于内存的。Spark提出了一种分布式的内存抽象，称为弹性分布式数据集（RDD，ResilientDistributed Datasets）。RDD支持基于工作集的应用，同时具有数据流模型的特点：自动容错、位置感知调度和可伸缩性。