数据科学(Data Science):
我个人对数据科学的理解是这样的:理解数据和业务逻辑,并通过对当前业务数据进行采样(分析)来提供预测(也被称作“数据洞察”、“业务洞察”、“数据发现”、“业务发现”),这些预测是关于业务的走向(好的和坏的)和趋势的;能够使业务能够在走下一步时作出正确的决策。比如:
● 基于用户兴趣级别改进产品/功能
● 吸引更多的用户
● 吸引更多的点击、带来更好的印象、更加方便、带来更多的收益、吸引更多的潮人(leads?)
● [改善]用户体验
● [更好的]推荐
● [增加]用户停留时间
一般来说,“数据科学”是由“数据科学家”来驱动的,这些人一般是在数学、物理、统计、机器学习或者计算机科学的博士。如果不是这些领域的博士,那么他很难被雇佣。在最近的ACM的会议里,一位在线拍卖(online bidding)公司的数据科学人力资源经理在提问环节说她不会雇佣没有博士学位(和经验)的人。
数据科学家的职位要求:
● 基本都以“熟悉如何使用数据库系统(SQL 接口,ad-hoc)、MySQL和Hive”开始[作为最低要求]
● 如果需要的话,还包括Java/python/简单map-reduce工作开发
● 掌握(Exposure)各种分析方法(超过、中值、排序等),并且知道在各种数据集中应如何使用它们
● 数学、统计学、关联、数据万巨额和预测分析(掌握基于概率和关联的预测)
● “R”或者/和”RStudio”(如excel、SAS、IBM SPSS、 MATLAB)
● 对(统计)数据模型的开发有深入的见解,一般来说当前的主流是自学习模型,这些模型能够从自己的输出中进行学习。
● 从事过大数据的相关工作
● 熟悉机器学习和/或者数据挖掘算法(Mahout、Bayesian、Clustering、etc)
在数据科学领域,也有一些其它的职位要求和技能要求,如果能掌握,可能会在候选者中更有竞争力[意译]。比如,如果你有一个自然语言处理的角色,那么你可能需要一些不同的技能来匹配这个角色。有时候,这依赖于小组的大小,一个人有时候需要扮演多个不同角色,或者由不同的小组来处理。
目前,市场上对数据科学家有很多需求,可能是仅次于数据分析师的第二大的热门职位。下面是数据科学家的需求趋势:
数据分析师
一般来讲,数据分析是数据仓库、商务智能的逻辑上的延伸,它以最有用的形式来提供完整的分析。使用数据仓库进行分析的最大的不同是,大多数情况下[数据仓库]分析能够做到实时,并且动态变化,因为数据仓库是通过ETL的方式离线处理过的。
任何和数据打交道的业务肯定有“数据分析师”,没有数据分析师,就像没有心脏、灵魂和思想的死人一样。
数据分析(工程)师的职位要求:
● 熟悉数据仓库和商务智能的概念
● 熟练掌握SQL和相关分析解决方案
● 熟练掌握基于Hadoop平台的分析解决方案(HBase,Hive,Map-reduce jobs, Impala, Cascading等)
● 熟练掌握各种企业级的数据分析工具(Vertica, Greeplum, Aster Data, Teradata, Netezza等),特别是如何使用它们通过最高效的方式来存储/访问数据的
● 熟悉各种ETL工具(特别是将各种不同源的数据转换到分析工具中),来时实时分析变得可能。
● 高效的存储和访问数据的模式设计
● 熟悉各种数据体系结构中的工具和组件
● 制定决策的能力(实时和ETL的比较,为实现Z是使用X还是使用Y)
有时候,一名数据分析工程师也在需要的时候扮演数据挖掘的角色[任务],因为他对数据有比别人更好的理解。一半来说,他们为了得到更好的结果会很进行很严密的[分析]工作。
数据分析可以分成四种类型或四类角色(因为很难雇佣一个拥有全部技术的人,另一方面也是因为管理和开发是很不同的)。
● 数据架构师
● 数据库管理员
● 分析工程师
● 操作员
当前,“数据分析”可能是热门工作之一(可能Hadoop/大数据工程师超过了它),下面是在indeed上关于“数据分析”的趋势,它可能还会继续热门下去,因为绝大多数的业务需要及时的数据分析。
即使“数据科学”和“数据分析”在技术领域角度看起来比较相似,但是数据科学更像一个业务单元里的数据消费者,它依赖数据分析组提供的数据。除此以外,由于更大的数据集上有更好的概率,大多数的模型预测或者算法在大数据集上的运行效果相当好,因此数据越多越好。(有了更多的数据),你就有更好的可能来进行正确的预测,并驱动业务[开展]。这些意味着两者相互依存。如果你有一个同时掌握这些技能的工程师,那么你赚到了。