全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1413 0
2016-08-10

   这年头,大家都在谈论“大数据”。但是,如果仔细观察,你会发现不同领域专家学者眼中的“大数据”却不同其实,通常所说的大数据往往指的是大数据现象接下来,我们从数据科学的理论基础入手,分析大数据(现象)的内涵(表1-2)。


12.jpg



  • 计算机科学与技术当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据(现象)”。可见,计算机科学与技术中是从存储和计算能力视角理解“大数据——大数据不仅仅是“数据存量”的问题,还涉及“数据增量”、复杂度和处理要求(如实时分析)有关。

  • 统计学:当能够收集足够的全部(总体中的绝大部分)个体的数据,且计算能力足够大,可以不用抽样直接在总体上就可以进行统计分析时,称之为“大数据(现象)。可见,统计学主要从所处理的问题和“总体”的规模之间的相对关系视角理解“大数据”例如,当“总体”含有1000个“个体”时,由960个样本组成的样本空间就可以称为“大数据”——大数据不是“绝对概念”,而是相对于总体规模和统计分析方法的选择的“相对概念”。

  • 机器学习:当训练集足够大,且计算能力足够强,需通过对已有的实例进行简单查询即可达到“智能计算的效果”时称之为“大数据(现象)”。可见,机器学习主要从“智能的实现方式”理解大数据——智能的实现可以通过简单的实例学习和机械学习的方式即可实现。

  • 社会科学家:当多数人的大部分社会行为可以被记录下来时,称之为“大数据(现象)”。可见,社会科学家的眼里“大数据”主要从“数据规模与价值密度角度”谈的——数据规模过大导致的价值密度过低。


总之,术语大数据的内涵已超出了数据本身,代表的是数据给我们带来的机遇挑战,可以总结为:

  • 机遇:原先我们无法(或不可能)找到的“数据”,现在我们可能找到;原先我们无法实现的计算目的(如数据的实时分析),现在我们可以实现。

  • 挑战:原先我们一直认为“正确”或“最佳”的理念、理论、方法、技术和工具越来越凸现出其“局限性”,在大数据时代我们需要改变思考模式。



(注:以上内容摘录自我国第一部系统阐述数据科学理论的专著《数据科学》(清华大学出版社,朝乐门编著)。转载请注明出处)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群