到底什么是"大数据"？告诉你一个完美的答案!

1470

收藏 2016-08-10

这年头，大家都在谈论“大数据”。但是，如果仔细观察，你会发现不同领域专家学者眼中的“大数据”却不同。其实，通常所说的“大数据”往往指的是“大数据现象”。接下来，我们从数据科学的理论基础入手，分析大数据（现象）的内涵（表1-2）。

计算机科学与技术：当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时，称之为“大数据（现象）”。可见，计算机科学与技术中是从存储和计算能力视角理解“大数据”——大数据不仅仅是“数据存量”的问题，还涉及“数据增量”、复杂度和处理要求（如实时分析）有关。
统计学：当能够收集足够的全部（总体中的绝大部分）个体的数据，且计算能力足够大，可以不用抽样，直接在总体上就可以进行统计分析时，称之为“大数据（现象）”。可见，统计学主要从所处理的问题和“总体”的规模之间的相对关系视角理解“大数据”。例如，当“总体”含有1000个“个体”时，由960个样本组成的样本空间就可以称为“大数据”——大数据不是“绝对概念”，而是相对于总体规模和统计分析方法的选择的“相对概念”。
机器学习：当训练集足够大，且计算能力足够强，只需通过对已有的实例进行简单查询即可达到“智能计算的效果”时，称之为“大数据（现象）”。可见，机器学习主要从“智能的实现方式”理解大数据——智能的实现可以通过简单的实例学习和机械学习的方式即可实现。
社会科学家：当多数人的大部分社会行为可以被记录下来时，称之为“大数据（现象）”。可见，社会科学家的眼里“大数据”主要从“数据规模与价值密度角度”谈的——数据规模过大导致的价值密度过低。

总之，术语“大数据”的内涵已超出了数据本身，代表的是数据给我们带来的“机遇”与“挑战”，可以总结为：

机遇:原先我们无法（或不可能）找到的“数据”，现在我们可能找到；原先我们无法实现的计算目的（如数据的实时分析），现在我们可以实现。
挑战:原先我们一直认为“正确”或“最佳”的理念、理论、方法、技术和工具越来越凸现出其“局限性”，在大数据时代我们需要改变思考模式。

（注：以上内容摘录自我国第一部系统阐述数据科学理论的专著《数据科学》（清华大学出版社，朝乐门编著）。转载请注明出处）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群