这年头,大家都在谈论“大数据”。但是,如果仔细观察,你会发现不同领域专家学者眼中的“大数据”却不同。其实,通常所说的“大数据”往往指的是“大数据现象”。接下来,我们从数据科学的理论基础入手,分析大数据(现象)的内涵(表1-2)。
计算机科学与技术:当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据(现象)”。可见,计算机科学与技术中是从存储和计算能力视角理解“大数据”——大数据不仅仅是“数据存量”的问题,还涉及“数据增量”、复杂度和处理要求(如实时分析)有关。
统计学:当能够收集足够的全部(总体中的绝大部分)个体的数据,且计算能力足够大,可以不用抽样,直接在总体上就可以进行统计分析时,称之为“大数据(现象)”。可见,统计学主要从所处理的问题和“总体”的规模之间的相对关系视角理解“大数据”。例如,当“总体”含有1000个“个体”时,由960个样本组成的样本空间就可以称为“大数据”——大数据不是“绝对概念”,而是相对于总体规模和统计分析方法的选择的“相对概念”。
机器学习:当训练集足够大,且计算能力足够强,只需通过对已有的实例进行简单查询即可达到“智能计算的效果”时,称之为“大数据(现象)”。可见,机器学习主要从“智能的实现方式”理解大数据——智能的实现可以通过简单的实例学习和机械学习的方式即可实现。
社会科学家:当多数人的大部分社会行为可以被记录下来时,称之为“大数据(现象)”。可见,社会科学家的眼里“大数据”主要从“数据规模与价值密度角度”谈的——数据规模过大导致的价值密度过低。
总之,术语“大数据”的内涵已超出了数据本身,代表的是数据给我们带来的“机遇”与“挑战”,可以总结为:
(注:以上内容摘录自我国第一部系统阐述数据科学理论的专著《数据科学》(清华大学出版社,朝乐门编著)。转载请注明出处)