全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 Hadoop论坛
2348 1
2015-02-05






本文转发自千读,作者硅谷工程师董飞老师,本文为走近斯坦福讲座节选。



董飞,知乎达人,分享过《哪些硅谷创业公司能给拜访者留下深刻印象》,《美国大数据工程师面试攻略》,《Coursera 上有哪些课程值得推荐》引起强烈反响,受到社交圈广泛转载。


1.jpg


2015 年1月28日最新讲座《董老师开课啦》走进斯坦福,聊聊硅谷创业公司和大数据的事儿。


2.jpg


根据规模我把公司分成4类,成熟型,上市公司,快上市的,或者还是创业阶段的。这些公司都是大家很喜欢讨论的,我都亲自面试和感受过他们的环境,我以后有机会也会一一给大家详细介绍。


3.jpg


华尔街网站给出的最新创业公司融资规模图。黑色表示2010年后成立的。截至到2015年1月17日,规模跟去年比已经发生了很大的变化。首先估值在10Billlon的达到了7家,而一年前一家都没有。第二第一名是中国人家喻户晓的小米,美团也是在上升渠道很猛。第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比如Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有不少相似模式成功的,比如Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber),大数据(Palantir),消费级互联网,通讯(Snapchat),支付(Square),O2O App里面寻找下大机会。


4.jpg


未来趋势是什么?大家都很关心。我先提计算机逻辑的奠基者艾伦图灵(计算机届最高奖以他命名),他的一个伟大贡献就是在人工智能的开拓工作,他提出图灵测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已经有了很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。在Google资深科学家吴军博士(数学之美,浪潮之巅作者),他提出当前技术发展三个趋势,第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没有意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没有太形成规模。他认为未来机器会控制98%的人,而现在我们就要做个选择,怎么成为剩下的2%?


5.jpg


这张曲线图是信息时代的增长,其实在工业革命之前(1820年),世界人均GDP在1800年前的两三千年里基本没有变化,而从1820年到2001年的180年里,世界人均GDP从原来的667美元增长到6049美元。这里面发生了什么,大家可以去思考一下。但人类的进步并没有停止或者说稳步增长,在发明了电力,电脑,互联网,移动互联网,全球年GDP增长 从万分之5到2%。信息也是在急剧增长,最近10年是远超人类所有之前累计信息量之和。在计算机时代,有个著名的摩尔定律,同样成本每隔18个月晶体管数量会翻倍,这个规律已经很好的match了最近30年的发展,可以衍生到很多类似的领域:存储,功耗,带宽,像素。而下面这个是冯诺伊曼,20世纪最重要的数学家之一,在现代计算机、博弈论和核武器等诸多领域内有杰出建树的最伟大的科学全才之一。他提出著名的奇点理论。美国未来学家Ray Kurzweil称人类能够在2045年实现数字化永生,他自己创办奇点大学,相信随着信息技术、无线网、生物、物理等领域的指数级增长,将在2029年实现人工智能,人的寿命也将会在未来15年得到大幅延长。


6.jpg


大数据的用途,所谓学以致用,大数据领域在各个行业都可以应用,这里举出几个有趣的例子,在Linkedin的时候,CEO提出经济图谱的概念,希望整合用户,公司,工作机会,技能,学校,帖子变成一个复杂而有蕴含无限可能的数字化社会。找对象,有个国外的极客,他抓取了dating网站的数据,根据有些指标如地理,年龄,兴趣,建立下面的3D模型找到真爱;例如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。在移动App上,今日头条通过你的个人社会化信息,建立起兴趣图谱推荐文章并且随着你的使用会越来越聪明;在线教育领域:MOOC中的M就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人基因组的“大数据“ 等等。


7.jpg


2014年总结的Big Data公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。在分析这一块,Cloudera,Hortonworks,MapR作为Hadoop的三剑客,一些运维领域,MangoDB,Couchbase都是NoSQL的代表,作为服务领域AWS和Google BigQuery剑拔弩张,在传统数据库,Oracle收购了MySQL,DB2老牌银行专用,Teradata做了多年数据仓库。上面的Apps更多,比如社交消费领域Google, Amazon, Netflix, Twitter, 商业智能:SAP,GoodData,一些在广告媒体领域:TURN,Rocketfuel,做智能运维Sumologic等等。去年的新星 Databricks 伴随着Spark的浪潮震撼Hadoop的生态系统。


8.jpg


对于迅速成长的中国市场,大公司也意味着大数据,BAT三家都是对大数据的投入也是不惜余力,我4年前在Baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来Andrew Ng作为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做Pyramid(按Google三辆马车打造的金字塔三层分布式系统)有志之士,继续在OceanBase创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就真破产。


9.jpg


首先看Hadoop从哪里开始的,不得不提Google的先进性,在10多年前,Google出了3篇paper论述分布式系统的做法,分别是GFS, MapReduce, BigTable,非常NB的系统,但没人见过,在工业界很多人就想按其思想去仿作,当时Apache Nutch Lucene的作者Doug Cutting也是其中之一,后来他们被Yahoo收购,专门成立Team去投入做,就是Hadoop的开始和大规模发展的地方,之后随着Yahoo的牛人去了Facebook, Google, 也有成立了Cloudera, Hortonworks等大数据公司,把Hadoop的实践带到各个硅谷公司。而Google还没有停止,又出了新的三辆马车,Pregel, Caffeine, Dremel, 后来又有很多步入后尘,开始新一轮开源大战。


10.jpg


这是Hortonworks提出的data platform,这个公司比较强势,有最多的Hadoop committee成员,是真正的标准制定者。2.0就是由它们提出。在Hadoop 1.0之前,是0.16到0.19,0.20,还有一只是0.23进化成现在的2.0。主要区别是 1.0只能支持MapReduce框架,资源和数据处理限制在一起。而2.0首先抽象出Yarn这个资源管理器,然后上层可以支持各种插件机制,便于扩展,Hortonworks还研发了Tez作为加速引擎把一些相关任务合并共享或者并行来优化。


11.jpg


MapReduce,首先是个编程范式,它的思想是对批量处理的任务,分成两个阶段,所谓的Map阶段就是把数据生成key, value pair, 再排序,中间有一步叫shuffle,把同样的key运输到同一个reducer上面去,而在reducer上,因为同样key已经确保在同一个上,就直接可以做聚合,算出一些sum, 最后把结果输出到HDFS上。对应开发者来说,你需要做的就是编写Map和reduce函数,像中间的排序和shuffle网络传输,容错处理,框架已经帮你做好了。
12.jpg


介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在hotCloud 是一个从学术界到工业界的成功典范,也吸引了顶级VC:Andreessen Horowitz的 注资 AMPLab这个实验室非常厉害,做大数据,云计算,跟工业界结合很紧密,之前就是他们做Mesos,Hadoop online, 在2013年,这些大牛(MIT最年轻的助理教授)从Berkeley AMPLab出去成立了Databricks。它是用函数式语言Scala编写,Spark简单说就是内存计算(包含迭代式计算,DAG计算,流式计算 )框架,之前MapReduce因效率低下大家经常嘲笑,而Spark的出现让大家很清新。 Reynod 作为Spark核心开发者, 介绍Spark性能超Hadoop百倍,算法实现仅有其1/10或1/100。


13.jpg


说到一些工业实践,我可以拿Linkedin举例子,在Linkedin,有很多数据产品,比如People you may like, job you may be interested, 你的用户访问来源,甚至你的career path都可以挖掘出来。那么在Linkedin也是大量用到开源技术,我这里就说一个最成功的Kafka,它是一个分布式的消息队列,可以用在tracking,机器内部metrics,数据传输。数据在前端后端会经过不同的存储或者平台,每个平台都有自己的格式,如果没有一个unified log,会出现灾难型的O(m*n)的数据对接复杂度,如果你设定的格式一旦发生变化,也是要修改所有相关的。所以这里提出的中间桥梁就是Kafka,大家约定用一个格式作为传输标准,然后在接受端可以任意定制你想要的数据源(topics),最后实现的线性的O(m+n)的复杂度。


14.jpg


Coursera作为创业公司,非常想保持敏捷和高效。从技术上来说,所有的都是在基于AWS开发,可以想像随意启动云端服务,做一些实验。我们大致分成产品组,架构组,和数据分析组。使用Scala作为主要编程语言,采用Python作为脚本控制。我在的数据组由10多人构成,一部分是对商业产品,核心增长指标做监控,挖掘和改进。一部分是搭建数据仓库完善跟各个部门的无缝数据流动,也用到很多技术如Scalding编写Hadoop MapReduce程序,也有人做AB testing框架, 推荐系统。其实除了开源世界,我们也积极使用第三方的产品,比如sumologic做日志错误分析,Redshift作为大数据分析平台,Slack做内部通讯。而所有的这些就是想解放生产力,把重心放到用户体验,产品开发和迭代上去。


15.jpg


你如何选择Offer,从公司背景调查可以通过Glassdoor查看员工匿名评价,crunchbase查融资,Alexa查网站排名,Linkedin查人才。对于公司大小,是否技术驱动,面向企业,移动端这也是考虑因素。当然如果你有多个Offer可以去互相竞争,实现利益最大化。但最重要的还是你的兴趣,看你的发展平台,除此之外考虑你个人压力,是否能跟生活平衡。最后拿到Offer才仅仅是开始,只有把它付诸实践才有意义!


16.jpg


先介绍技术书籍,《Hadoop the definitive Guide》, 《Coders at Work》, 《Founders at Work》 是一个系列,《The architecture of open source application》列举了最有名的开源项目架构剖析。除了技术书籍,我还推荐人文书籍比如《数学之美》,吴军博士出手,《Lean In》-Facebook COO女性如何赢在职场。未来学家雷写的奇点临近,Paypal黑帮成员,著名VC Peter Thiel写创业教程《Zero to One》, A16Z创始人Ben写的《the Hard thing about hard thing》.


愚者等待机会,强者把握机会,智者创造机会,让我们追随技术,珍惜互联网给我们的伟大机会,奔跑吧少年!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-2-5 18:08:08
好东西
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群