全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管类求职与招聘
1751 0
2015-04-23
当我们在谈论大数据时,我们在谈论什么? 2015-03-07



导读


现在大数据可真是个“热词”,很多人看好,很多人吐槽。金融企业说自己用大数据征信,互联网企业说自己用大数据预测,销售企业说自己用大数据推广;拥抱大数据的企业声称自己颠覆了行业,另一些传统行业则对其嗤之以鼻。当我们在谈论大数据时,我们到底在谈论什么?大数据真的能在各个行业广泛应用吗?下面职小问就来谈谈大数据是什么,现在各大互联网企业都怎么用大数据。


一、大数据的概念

现在非常火热的“大数据”(Big Data)一词最初在1980年由未来学家托夫勒在其所著的《第三次浪潮》中提出,美国顶尖的科学杂志《自然》则在2008年9月推出了名为“大数据”的封面专栏。尽管如此,首先对 “大数据”应用进行设想和详细论证的,则是世界著名的管理咨询公司麦肯锡(其下面的McKinsey Global Institute),其在2011年6月发布的《Big data - the next frontier for innovation》报告轰动一时,迅速受到了各行各业的关注。



那到底什么是“大数据”呢,数据到底要多大才算“大数据”呢?McKinsey Global Institute在一篇2011年的报告中给出这样的定义:

“Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.

也就是说,大数据是一个相对概念,它表示自然存在着的,但以我们传统的数据技术难以抓取、储存、管理和分析的那一部分数据——淹没在海平面以下的巨型冰山。因此大数据不只是指资料,也指这些用来分析、处理巨量资料的新兴技术。

举个便于理解的例子,不少对冲基金通过分析交易所的交易数据来预测金融资产价格,发现投资机会。而一个交易所一天的交易数据量可以达到几十GB,如果要用最近一年的交易数据开发一个交易策略,那就需要对十几TB的数据进行多次统计分析和策略验证,如果仅仅使用个人电脑上传统的SPSS、Stata等统计软件进行分析,恐怕好几个星期才能完成一次统计计算,完全无法适应瞬息万变的金融市场。因此,不少对冲基金都积极雇佣计算机、物理等专业的博士生,使用Hadoop这种大规模并行处理技术来处理海量数据,并通过R这类开源编程语言和平台定制自己的统计算法。

二、大数据的应用

大数据的类型大致可分为三类:

  • 传统企业数据 (Traditional enterprise data): 包括 CRM systems的消费者数据,传统的企业ERP数据,库存数据以及账目数据等。
  • 机器和传感器数据 (Machine-generated /sensor data): 包括呼叫记录(Call Detail Records),智能仪表(如现在非常火热的智能汽车),工业设备传感器,设备日志,交易数据等。
  • 社交数据 (Social data): 包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。

虽然从理论上来看,所有产业都会从大数据的发展中受益,但由于有效数据的缺乏,大数据在有些传统产业(例如农业)的应用发展可能较为缓慢,而在互联网、金融等行业的应用则较为普及。

下图是麦肯锡在其大数据报告中的列出不同行业的大数据发展潜力,可以看出,从大数据中获益最多的行业分别是金融保险、政府公共事业、批发交易、房地产市场、医疗健康、石油资源、交通物流。



大数据在商业应用上能否成功主要取决于两个因素:

1、能否获取大量有效数据

大数据的商业应用需要迈过的第一道门槛就是如何搜集到大量的可以用来进行商业分析的数据。

在现实中,许多可以用来分析的数据都是散落在不同的平台上。以眼下比较热门的个人征信为例,央行征信平台掌握了个人在银行的借贷记录,阿里巴巴旗下的蚂蚁金服沉淀了大量的金融数据,而腾讯微信则拥有大量的个人社交信息;但由于所属主体之间的利益竞争关系,这些数据很难被整合在一起。

2、能否有效地解读数据

有时候,数据量大并不一定是一件好事,因为数据的筛选和清洗是一个非常枯燥复杂的过程。况且,数据量越大,分析维度越多,由此带来的“数据噪音”也越多,模型越失真,这也给大数据在商业应用中带来了不少困难。

以阿里旗下的蚂蚁金服为例,芝麻信用有着非常广泛的信用数据来源,日数据处理量在30PB以上,相当于5000个国家图书馆的数据总量,其中包含了用户网购、还款、转账以及个人信息等方方面面的数据。通过分析大量的电商交易及行为数据,芝麻信用可以对用户进行信用评估,判断用户的还款意愿及还款能力,继而为用户提供快速授信及现金分期服务。

看起来很美好是不是?但实际上,蚂蚁金服拥有的大量数据中,不少都是用户浏览行为、在线时长、活跃度等非主流的数据,对个人信用等级评价的意义很小。因此蚂蚁金融的个人信用评级模型的精准度大约只有某些传统P2P平台信用模型的70%左右。

因此,大数据科学家在考虑数据处理这些技术问题外,还需要考虑数据模型的现实商业意义,方能让大数据真正体现它的价值。

三、大数据应用案例

下面职小问搜集了一些大数据应用的典型例子,供大家参考~

1、健康与医疗

Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。

在中国,阿里也和国家药监局展开了积极合作,通过把药品数据迁移到阿里云上,将医保报销金额和对应的药品销售数据进行分析,识别骗保的可能性。

2、视频

互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix是美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等,它甚至记录了用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。

3、交通

“车来了”通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台(Github:OpenTripPlanner和MTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到 ≧▽≦),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。

4、电子商务

Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。Decide已经于2013年被 eBay收购。

5、政治

奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(想了解更多的小伙伴,可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)

6、金融

ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。

在国内,腾讯的财付通团队早在2年前就开始推进征信业务的探索,帮助用户建立个人信用。腾讯征信将基于腾讯现有的QQ、微信活跃用户,以及在SNS、门户、娱乐等众多领域的群众基础,通过海量数据挖掘和分析技术来预测其风险表现和信用价值。

7、电信

美国T-mobiles采用Informatica - The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT - Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。

8、营销

阿里巴巴集团和上汽集团进行合作,由阿里妈妈品效团队发布了《CABI中国汽车消费车主洞察报告2014 Q4》,这份报告是是阿里内部打通了阿里妈妈、CDO(阿里巴巴数据平台)、天猫汽车、淘宝汽车和高德汽车等部门,以阿里巴巴全息大数据为基础,将上汽集团数据与之匹配产生的消费者洞察呈现给汽车行业。这份报告基于上汽集团荣威的三款车型,还原了分布在全国不同城市不同车主的人与生活,通过数据精准还原了同一车型品牌背后包括一、二、三线城市车主用户的真实生活状态,为汽车行业的进一步实现精准营销提供可能。





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群