我的实习和第一份工作是在西门子医疗,一个财务相关的部门。同事大多是会计背景,但是他们用Excel的能力让我惊叹。我的工作是分析财务数据,但是实际的内容主要是操作SAP然后用VBA写自动化报告的程序,工作的过程中我也感受到了Excel和VBA的强大,最重要的领悟就是任何语言都有可能解决任何的问题。网络上喷来喷去的只是弱点,可能影响到效率,但实际工作中,人们最关注的是能与不能,而不是好与不好。用Excel的过程中我解决了同事提出的所有问题,有些和交互协作相关的问题就用JSP来写,不过当时公司的服务器上没有Tomcat,于是自学ASP也都解决了。毕业后我留在了西门子,并随公司搬到了上海。
我很庆幸我在西门子的工作经历,可能当时入职时最吸引我的只是五百强的虚荣。但在这样的大企业形成的工作习惯是可以受用一辈子的。虽然效率不是很高,但是任何的工作细节决定了所有的努力不会白费也不会起相反作用,这里不需要个人英雄主义,只需要所有人的合力。在自己的位置上完成本职工作就是成功。工作的节奏对我这样的急性子来说太慢了,但是慢下来之后和大家的节奏契合之后常常能出一些我之前想象不到的成果,这都是我自行摸索学习不到的东西。
在感到已经没有可学的东西之后,两年过去了,当时已是2009年。继续呆在这里只需要深入学习会计和熬资历,一步步升职加薪就能变成真正的外企人,一直成为有用的螺丝钉,我之前的专业和兴趣就要白费了。于是我选择了另一个极端。源略数据是一个当时的创业公司,其理念是融合IT和统计,打动了我,一看Logo就喜欢,八卦变来的。即使现在我也佩服老板们的远见,当时要搞的就是今天的数据科学。各种类型的项目都做,不限行业不限内容,从满意度调查到BI,从运筹学到文本挖掘,都是我们的解决方案。在源略的两年是最开心的时间,一群人可以在办公室里搞烧烤,装个卫星锅看世界杯,还一起自驾千里去搞户外,有过这样的经历后现在对创业就没那么向往了。公司在这段时间靠项目过得很不错,但是最终没能迎来大家期望的对数据需求的爆发。可能在很多人看来只是个没成功的理想主义公司,但是这段经历对我来说非常重要。我作为一个资历尚浅的人可以担当很多重要的角色,很多之前的想法在实际项目中一一得到了印证,纯粹地做任何喜欢的事情,以前不确定的地方靠本事也能找到自信。当我想离开的时候,有一种出山的感觉。
在源略数据的两年时光里,数据开始慢慢变得热门。R语言也开始走入人们的视线,中国R语言会议也办起来了。记得08年的时候,一群青涩的少年与青年在人大举办了第一次中国R语言会议。当时仗着谢益辉从大多特回来的余勇,一伙当时算是R的狂热分子的人就聚到了北京。会议当天谢益辉一直在紧张调试设备,导致很多他的粉丝找他不着,还有粉丝拍着他的肩膀问谢益辉在哪里。当时的大家完全没有什么演讲水平,很多内容还留在网上今天见了也会汗颜,不过那次会议点燃了R的火种,像魏太云、邱怡轩这些当年的年轻人现在就成了绝对的大佬。在那个时代,行业里数据的应用仍然是以BI为主,但是很多新的应用已经开始兴起。除了具体的技术和工程实践,我开始意识到对数据的理解其实是最重要的能力。纯粹的技术能解决的问题很少,很多时候问题错综复杂,涉及到多个系统之间的复杂关系甚至人与人之间的复杂关系,数据散布其中形成一个又一个难解的结,再前沿的技术也难以成为一把斩断乱麻的刀,只能靠人来抽丝剥茧,然后在不同的阶段和环节选择最有效的或者自己最擅长的工具一个个地解决问题。如果之前没有一个清晰的总体的理解,那么很容易就陷入到局部的死胡同去硬撼各种难题,反之,如果找到了一条正确的道路,就可以用最经济的方式来解决问题。直到今天我都认为这些是数据科学家最重要的技能,实际上也是最容易被忽视的。
我的下一站是Mango Solutions。2011年离开源略后我对自己不再怀疑,开始坚定地向数据应用的巅峰挑战。选择无非只有两条路,读个博士搞学术或者在业界找个更专业的地方搞技术。无论哪种选择,最现实的出路就是找个狭小的领域寻章摘句或者找个狭小的圈子千锤万凿。我选择了后者,因为我信仰数据的价值,但并不执着于方法。在数据应用的领域,学术界和业界的差别不大,总之数据为王,能更多见到数据的地方就是好地方。Mango是个专业用R的公司,与我的专长非常匹配,更重要的是它可以深入业界去解决一些和数据相关的具体问题,无论大小、无论难易,客户高兴就是最好的度量,这样简单的评价方式是我喜欢的。
在Mango一呆就是四年多,已经超过了人大,是我在一个组织内呆的时间最长的了。这四年里,我接触到了欧美很多顶尖的公司和顶尖的人,从他们的项目中学到了很多东西,也帮助他们解决了不少问题,看着自己曾贡献的努力出现到了人们的日常生活中是一种很好的体验,感觉自己的价值得到了实现。这四年的时间也使我从一个青年人变成了中年人,在专业的道路上越走越远,也牺牲了很多原来的兴趣。在这个阶段,我感受到了自己之前所有的技能融会贯通了,统计、编程和沟通能力自不用说,这是基本的技能,即使是会计、市场、销售的能力也感觉很有用武之地。更重要地,我体会到了行业的差异、东西方的差异、文化的差异并没有想象的那么大。能帮到别人,就会是受欢迎的人,能解决难题,就会是令人佩服的人。
这段时间随着互联网行业的成功,“云计算”迅速成了热点。我非常欣赏这种模式,因为“云”是可以对抗传统厂商的绑架的。通过廉价开源的个体聚集成庞大的系统,这就是互联网的精神。但是发起这个概念的人更多的是计算机专家而不是数据的专家,并不是所有分析算法都可以轻松部署到云上的,因此业界的云计算大部分沦为云存储平台。正如之前的数据挖掘变成了关联规则和分类算法、商业智能变成了OLAP一样,都是很好的概念被厂商狭义化了。
很快,“大数据”的概念崛起了,迅速占据了最热门的位置,其热度是之前任何时代的热炒概念所不能比拟的。对于大数据,虽然仍然存在很多跟风炒作的,但是不得不承认它确实开创了一个全新的时代。大数据的概念完全是应运而生,因为数据的来源有了翻天覆地的变化,数据的规模完全足够,计算的能力也得到了长足的发展,新的机器学习方法也不断涌现,终于赢来了数据应用的黄金时代。社会上也开始广泛地关注数据的价值和大数据的应用,随后也产生了“数据科学”这一理性的概念。这是所有数据从业者的好时代。
这四年里,数据的价值在国内得到了认可,R语言也越来越火。工作之余,我和统计之都一群志同道合的伙伴们也时常探讨数据的价值,也闲聊各类八卦,还组织了规模越来越大的中国R语言会议,我们逐渐发现,数据已经融入到了自己的生活和价值观中。理解问题、相信数据、慎用方法、尊重需求,这就是数据科学家的思维方式。数据科学家不是拯救蒙昧的传道者,不是秀智商优越感的“理科生”,不是曲高和寡的“专业人士”,而是真正能用数据来解决问题的实干派。这在本质上与R语言是一致的,也是如今大数据时代下这两者越来越火的原因。记得2012年北京的R语言会议结束之后,郁彬老师给我们作了一次印象深刻的报告,郁老师强调的统计应该跟上现代的节奏、要主动去和计算机结合、要深入到应用领域的观点让我感觉自己做的事情很有意义。
现在我又离开了Mango,加入了PMI,开始迎接新的挑战。这些年看着身边的朋友一个一个地投身到互联网行业,在这个最激动人心的行业弄潮。我比较怕和这么多高手竞争,就仍然坚持在传统行业。我喜欢李商隐和李贺,讨厌李白,我喜欢周邦彦和史达祖,不喜欢苏轼,我喜欢用大神力于空际转身或者带着镣铐跳舞,所以虽然传统行业有太多阻碍和脑残的东西,我还是坚持用数据科学在这里做出点东西来,毕竟这里的资源实在太丰富,数据也太好。虽然传统行业里节奏太慢做事风格也太Low,可能不适合纯粹的技术大牛,但我觉得这是数据科学家的最好去处,数据科学家如果没有深入行业的能力以及无论任何条件都能全天候地从数据中挖出价值的本事,那还不如直接去搞机器学习挑战巅峰算了。
最初有写这本书的想法是在2012年上海R语言大会时,西安交大出版社的李颖找到我和肖凯开始谋划一本基于R语言与数据实战的原创书。肖老师是圈内我最崇拜的博主,李颖是统计科班出身的专业编辑,我们很快一拍即合。当时肖凯提议起名数据科学时我还从来没听说过这个词,没想到短短两年多的时间后,这个词会变得如此火热。当然,从另一面来看,我们这本书居然写了两年多还没写完。当时我还担心数据科学的书名让人摸不着头脑,不过在读了肖凯写的博客和推荐的链接之后,觉得这个词可以非常精确地描述我们的工作。我们从数据出发,介绍各种方法的原理、在R中的实现以及在具体领域中的应用。书中的内容全部来自于我们平时工作中的经验和对R语言的感悟,与传统的统计学、R语言编程或行业实战类书籍都有所不同,命名数据科学是再合适不过了。
(统计之都)