全部版块 我的主页
论坛 金融投资论坛 六区 金融学(理论版) 量化投资
8665 73
2015-04-12
QQ截图20150412015655.png
QQ截图20150412015741.png
QQ截图20150412015805.png
仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年IT行业最重要的人才”了。在《数据之美》一书中,对于Facebook的数据科学家,有如下叙述:


“在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了‘数据科学家’这种角色。”


数据科学家是否由Facebook创造,我们尚不可知,然而这确实是一种前所未有,但却无比稀缺的职业。“不懂统计学的码农不是一位好的数据科学家”,纵然这样概括数据科学,却仍显得不够全面。要成为一位数据科学家,需要掌握统计学、线性代数和一些编程技能,也要精通数据预处理、数据再加工、数据建模、编码、可视化和有效沟通。万丈高楼平地起,就让我们从一些简单而有趣的知识开始探索数据科学的旅程吧。


数据科学家每天的工作流程是什么?数据科学的学习路径是什么?在本期《码农》中,你将听到来自数据科学家们的回答。除此之外,我们还将和你一起探索一些实用的数据加工技术。奇异值分解是一种无论在生物信息学还是在金融学领域内都有广泛应用的数据简化方式,我们将向你介绍基于Python的SVD实现;作为人与数据间的桥梁,数据科学家需要掌握数据可视化方面的必要知识,而即将介绍的R语言则是一种绝妙的工具。另外,我们还将拓展思维,一起回顾一下机器学习的漫漫长路,比起模型设计和软件开发,也许更需要了解的是如何诠释问题。


Google、Amazon、Facebook、Twitter,这些称霸互联网业界的企业,不仅是数据分析的受益者,也是大数据储存和处理技术的推动者。当你需要更多计算资源时,不需要预先购买大量机器,可以直接利用亚马逊Web服务(AWS)来实现;Google的立家之本PageRank是大数据处理领域的伟大创新,就让我们来听听Sergey Brin的老师Ullman教授是如何从垃圾农场架构的角度破解PageRank链接作弊的。


说到大数据领域的创新,Google的三驾马车(GFS,MapReduce,Bigtable)曾经开启了大数据处理时代的序幕,然而技术的更迭创造出了更好的产品。本期“码农人物”连城是Spark核心构建者Databricks的工程师。在做Spark之前,连城从来没有从事过大数据分析方向的工作。如今作为Spark committer的他,对大数据分析逐渐形成了自己的理解,他认为“对工具的选择,既可以解放我们的思想,也可以禁锢我们的思想”。而他自己曾经并不感冒的函数式编程,可能才是更加契合大数据场景的编程方式。


在历史上的任何时期,掌握着先进工具的人也就掌握着未来。在大数据时代,数据科学家无疑就是这个时代点“石”成金的人。


本帖隐藏的内容

码农 第17期.pdf
大小:(9.63 MB)

 马上下载





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-4-12 05:16:47
Thanks A Lot!!!!!!!!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-12 08:43:23
kankan
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-12 08:44:30
谢谢分享~~~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-12 09:07:31
想看。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-12 09:25:28
546042970 发表于 2015-4-12 09:07
想看。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群