每一年,IT界都会有一个最流行的话题--去年是“云计算”,今年则是“大数据”。美国互联网数据中心指出,互联网上的数据每年增长50%,每两年便翻一番,而目前世界上90%以上的数据是最近几年才产生的。2012年3月,奥巴马ZF宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马ZF甚至将大数据定义为“未来的新石油”。
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代。
什么是大数据?
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理的信息。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
一是数据体量巨大(Volume)。从TB级别,跃升到PB级别。有数据显示,到2012年为止,人类生产的所有印刷材料的数据量大约是200PB(1PB=1024TB),全人类历史上说过的所有话的数据量大约是5EB(1EB=1024PB)。举例来说,1PB相当于154万张770MB光盘的数据容量,1ZB相当于全球每个人每天都去做1.19亿次高分辨率的核磁共振检查所产生的数据总量。
二是数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这就对数据的处理能力提出了更高要求。
三是价值密度低(Value)。以视频为例,在1小时连续不间断的监控过程中,有用数据可能仅有一二秒。
四是处理速度快(Velocity)。这是大数据区别于传统数据挖掘技术的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
大数据应用
从市场上已经发生的案例来看,互联网行业、零售行业受大数据的影响最大,医疗、卫生、交通、物流甚至生物科技、天文等领域也都开始意识到大数据的价值。
互联网行业
雅虎于2008年年初便开始启用大数据技术,每天分析超过200PB的数据,这使得雅虎的服务变得更人性化,更贴近用户和客户。为了更深入地了解每一个用户,亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来,这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对其货品
库存、仓储、物流以及广告业务上都有着极大的效益回馈。