大数据思维形成的2种视角:信息技术驱动及应用拓展
来源:电子政务杂志时间:2015-12-23 14:43:24 作者:胡小明
第一部分
一、迷雾中的大数据
(一)望文生义的大数据
大数据是当今最热门的词汇,也是概念内涵最混乱的词汇。大数据这个词汇在不同场合出现时会有不同含义,澄清此概念基本的含义及其含义变化的规律,对于深入探讨大数据带来的机遇是非常必要的。
用耳熟能详的词汇代表一个全新的概念很容易造成理解上的混乱,人们太容易望文生义,以自己原有的理解去想象新概念,而不去了解该词汇此时的新含义。望文生义是阻碍人们学习新知识的大敌,研究大数据必须先忘掉其习俗概念,从“大数据”形成的背景开始观察研究。
(二)清晰概念的两条路径
使一个概念清晰通常有两条路径:一是查阅各种文献,其中的不同解释有助于形成概念的整体印象;若要领悟概念的精髓,还得走另一条路,即需要重复新概念形成的思维过程,要从对背景与大量案例的观察入手,从具体事例中抽象出新概念,反复用新事实验证自己对概念的理解,使概念的内涵更加丰富。后一种方式虽然耗费时间,但能提高概念举一反三的创新能力,因为从既往文献的解释所获得的理解有其历史片面性,而从大量现实场景实例中抽象出来的概念很容易返回到当下的应用实践中,这对于提高应用创新能力极为重要。
(三)理解新名词背后的故事
当一个名词成为舆论热点时,它必定有自己的故事,也会适时变成一个“成语”,增添时代背景赋予的新含义,这种新含义不是已有名词解释所能囊括的,而这个新含义正是我们理解新概念的关键。
在大数据出现之前,我们已有海量数据之称,仅从字面解释两者似乎差别不大,但联想其出现背景可知两词含义大不相同:海量数据仅仅是形容数据量大并无新的内涵,而大数据则不同,它代表着一个新时代的到来,史无前例的数据规模充斥着人类社会各个方面,意味着社会生产力发展的巨大机会。
(四)从应用出发的大数据理念
使新理念成为社会热点的动力是利益,大多数人是从新理念能否为自己带来效益的视角决定是否欢迎这种理念。不同行业、不同背景的人理解大数据的重点有所不同:IT技术部门理解的大数据是现有数据处理技术所处理不了的数据规模,这种视角有利于宣传技术优势;政府部门的大数据概念更多强调政府数据的综合应用,因为这是政府部门数据应用最迫切的课题;在工业领域中,大数据与智能化紧密联系在一起,典型如自动驾驶汽车等,与数据挖掘类的大数据应用模式很不相同,智能设备直接依据数据操作,没有信息提取概念。准确理解不同用户、不同场景下的大数据含义非常重要,这不仅有利于与不同的用户准确对话,也有利于发现不同场景下的大数据创新应用机会。
二、大数据的技术背景
(一)数据充斥的新时代
与数据库时代海量数据只集中于大型机相比,互联网时代大规模数据已无处不在:人人都有手机,时刻可以连接,GPS随时定位,网上查询、购物、聊天、游戏不停,银行卡、交通卡、门禁卡不停地刷,视频监控、ETC等时刻记录过往车辆,智能化设备已经穿戴在身上。一切智能设备都是数据设备,当今时代不仅是数据爆炸时代,也是智能设备遍布各个角落的时代。
大数据时代是信息技术发展的必然结果,新技术的出现不是人所能控制的,机会成熟了新技术将应运而生,你不发明别人会发明,技术就像生物,只要环境适合就会自然生长,大数据时代的到来不可抗拒。
(二)摩尔定律缔造基础
与其说大数据是一种技术,不如说大数据是一种环境。大数据应用不是靠某项发明,而是社会信息环境变迁的结果。大数据概念代表着社会性,没有信息技术大普及不可能生成如此多的数据;没有计算机存储能力的指数增长,大数据将无处存放,数据量的膨胀速率与摩尔定律是一致的。摩尔定律揭示了计算机硬件功能的指数增长,还有硬件成本的急剧降低,智能手机迅速普及,传感器成本极大下降,进而使自动化数据收集成本趋于微不足道,从而迎来大数据的爆发。
(三)网络推动了大连接
推动大数据时代发展的另一大功臣是通信的大发展,互联网与移动互联网的贡献居功至伟。高速互联网连接了全球计算机设备,物联网将这种连接扩展到智能终端,一台台智能设备与整个互联网连接,自由地交换数据,将单台设备的数据能力升级到全球网的层次上,极大地提升了系统的智能潜力。
高效的通信网实现了更多的连接。梅特卡夫定律指出,网络的价值与参与者的平方成正比,连接的增加就是机会的增加,也是全社会数据利用能力的增加,更是提高生产力机会的增加。
(四)软件与新技术的创新
大数据应用的核心技术是软件。大数据的技术定义是“现有数据处理技术所不能胜任的大规模数据”,此解释可引申为:大数据处理新技术是大数据应用的关键,没有新处理技术的大规模数据只能是一堆垃圾,是软件技术的新发展才使垃圾变废为宝。
软件的作用不仅仅是大数据资源的数据挖掘,还是智能技术集成创新的粘合剂,将硬件设备、网络资源、传感器、控制器与数据组织成为能够实现目标的智能系统靠的就是软件。软件是智能系统的灵魂,软件工程的发展与软件工具的积累为大数据智能系统的大量涌现奠定了基础。
(五)大数据生态环境
大数据所体现的已经不是一项一项的孤立的信息技术,而是多种信息技术共生的新生态环境。这些新技术包括传感器、高速网络、移动互联网、智能终端、云平台、大数据处理技术、地理系统技术等等,这些基础技术的出现为新技术、新应用的创新提供了良好的机会。新技术出现的基本渠道是已有技术的集成创新,积累的技术越多,创新机会就越多,这是一个正反馈循环。大数据时代是数据大爆发的时代,也是智能系统大爆发的时代。
三、信息驱动的大数据视角
(一)互联网巨头的大数据理念
大数据概念的出现来自互联网巨头业务的推动。史无前例的庞大数据急剧地向谷歌、亚马逊、百度、阿里、腾讯等互联网巨头集中,几乎要撑爆一切现有的数据存储系统,互联网巨头们疯狂地扩充服务器数目(已达百万级),其数据量还在指数增长。如何利用如此庞大的数据成为一个新课题,由此产生了大数据最原始的定义:现有信息技术所不能处理的大规模数据称为“大数据”。
史无前例的数据规模推动了大数据技术的发展,这种新的处理技术使得互联网巨头聚集的大规模数据成为重要的资源而不是垃圾。这种超大规模数据资源的利用改变了人们从数据中获取有价值信息的理念,促成了大数据应用理念革命。
(二)大数据理念革命
《大数据时代》作者维克托·迈尔-舍恩伯格将大数据理念革命的精髓概括为如下三点:①不是抽样数据,而是全部数据;②不是精确数据,而是模糊数据;③关注相关性,而非追究因果性。[1]
迈尔-舍恩伯格所归纳的大数据应用的新理念可谓入木三分,对长期处于小数据统计分析的人员犹如醍醐灌顶。大数据提供了一种挖掘信息的新思路,对于利用大数据资源获取信息的应用非常重要,大数据思维又为科技探索提供了新模式。
(三)信息驱动型大数据应用的特点
迈尔-舍恩伯格的观点代表了最纯正的大数据理念,是真正拥有超大规模数据资源的机构需要认真体会的,对国内如BAT类互联网巨头们如何利用好自己的数据资源有着重要的指导意义,也是很多希望利用大数据资源获取信息的政府部门需要认真学习的。
迈尔-舍恩伯格描述的大数据理念是大数据的信息应用视角,关注的是如何从大数据中挖掘出更加准确、更加丰富的信息,目的是利用这些信息来指导和改进人们的工作,提高决策的水平,这是为人脑服务的大数据应用。人是靠信息决策的,这类大数据应用的目标是提取信息,可称之为信息驱动的大数据应用。
政府部门的大数据应用大都是信息驱动型大数据应用,它与传统的统计数据处理的目标是一致的,都是要从数据中提取信息供决策使用,都是面向人脑用户的大数据应用。
(四)信息驱动型大数据应用的难点
信息驱动型大数据应用的主要困难是缺乏可用的大数据资源。在传统的统计调查中,统计调查是由信息需求者设计的,调查得到的数据与所需要的信息密切相关,信息浓度高且容易处理。大数据应用尽管有很多优点,但却不可能为了获取信息而去设计大数据收集系统,因为其成本太高。大数据应用只能使用业务系统积累的数据资源(收集成本由业务系统承担),大数据应用是业务数据的副产品,信息使用者找到适用的业务数据资源并不容易。
目前,拥有大数据的机构大都利用用户数据来优化自身的销售业务,如亚马逊的商品推荐,电信部门的套餐推荐等等。而对于没有大数据的企业要利用他人的数据注定还是很困难的,一是合适的数据资源并不好找,二是利用这些资源的成本并不低,是否值得一做仍是一个问题,只有那些管理已十分精细的企业才有兴趣利用外部大数据资源改进自身工作。
四、技术驱动的大数据视角
(一)面向机器应用的大数据
信息驱动的大数据应用是面向人脑的大数据应用,技术驱动的大数据应用是面向机器的大数据应用。
机器使用数据与人脑使用数据的模式不同。人脑不能消化大规模数据,必须先从中提取信息(或者说是数据挖掘,即浓缩数据或可视化),组织成便于人们理解的形式,人脑理解了的东西才是信息,才能够用于决策。
机器没有信息的概念,机器只认数据,直接依据数据操作。软硬件技术的改进使得计算机能够高效处理大规模数据。面向机器的大数据应用是一个智能化系统,其数据来自传感器和网络。智能大数据应用因没有人的介入,可以十分高效,大数据天然是为机器准备的。
面向机器的大数据应用的典型例子是无人驾驶汽车。汽车对周边环境的感知都是靠传感器、GPS定位系统及互联网数据确定的,这是一个典型的大数据系统,同时它也是一个智能化系统,智能系统与大数据越来越不可分离。
(二)智能系统升级到大数据阶段
信息技术的大发展促进了智能系统的升级。传感器的大发展和互联网数据连接能力极大地提升了智能设施的感知能力,加之软件、算法的同步发展,使智能系统升级到大数据阶段。
早期的智能系统是局部性系统,信息连接的范围很小,控制能力有限,只能完成简单的自动化任务;而在大数据的环境下,在物联网的连接中,智能覆盖的范围将大得多,通过云的支持,可以利用更多的数据与知识,使系统可凝聚的智能大幅度地增长,实现智能化生产、智能化服务,开辟智能化社会新纪元。这也成为工业智能设备与系统发展的大趋势。
(三)集成创新的大趋势
技术的发展是社会共同创造的成果,技术创新主要是已有技术的集成创新,信息技术大发展成为技术集成创新的重要条件。软件与通信是连接各种基础设备、设施强有力的工具,如果没有软件在其中进行组织上的连接与协调,诸多的设备、工具则无法形成有统一目标的智能系统。软件成为复杂系统的粘合剂,是智能系统的灵魂。软件等信息技术使复杂的新技术的出现成为可能,未来一切复杂的技术都离不开软件的连接。
智能化是人类应对不断增长的复杂性的主要武器。为了适应环境,智能系统必须准确地感知、紧密地内外连接,交换数据,因此大部分智能化的系统都将成为大数据应用系统。随着智能技术、智能设备的发展,技术的集成创新将进入一个高速发展的良性循环,智能化大数据应用将成为常态,尤其是在未来的物联网应用环境,更是大数据应用的世界。
(四)连接比数据规模更重要
面向机器的数据应用对数据规模不甚敏感,因为机器不需要从数据中淘取信息。自动化数据系统鲜有处理速度瓶颈,智能系统关注的是数据的连接渠道,数据是来自传感器还是物联网,以及如何对数据进行及时有效的处理。因而可以说,智能产业不需要按数据规模定义大数据,凡来自自动化信息渠道的数据,一律视为大数据。
随着物联网的发展,连接的增长必然带来数据的增长、智能的增长,机器学习、自然语言对话、人像识别等新型数据处理的规模都会急剧膨胀。在智能大数据的理念中,连接是比数据更重要的概念。为了共享知识与数据,智能系统与云平台的连接会越来越多,智能系统的后台支持成为大数据应用的重要内容。