全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
4534 10
2016-03-21

数据挖掘师告诉你:大数据是否为数据挖掘的延伸


相对于大数据来说,数据挖掘的历史肯定要早很多。因为大数据是近几年才开始崭露头角的,而数据挖掘从古至今就一直存在。像古人总结出来的经验之谈或史书记载的规律现象等,都是数据挖掘的结果。于是很多人就在想,那数据挖掘作为那么前的一个前辈,到底大数据是否为数据挖掘的延伸呢?其实说是,还真的有一定的道理;但我们仔细了解大数据之后,会发掘很多和数据挖掘不一样的东西。所以今天数据挖掘师就来告诉你:大数据是否为数据挖掘的延伸。


(143).jpg


数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。


大数据是最近两年提出来,也是媒体忽悠的一个概念。有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,web用户产生的数据自动保存、传感器也在不断收集数据,以及移动互联网的发展,数据自动收集、存储的速度在加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实施提出了挑战(一般而言,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。Google提出了分布式存储文件系统,发展出后来的云存储和云计算的概念。


(122).jpg


大数据需要映射为小的单元进行计算,再对所有的结果进行整合,就是所谓的map-reduce算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术,区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中,有些算法需要调整。


此外,大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。


以山西开矿的煤老板为例:


开矿的前提是有矿,包括煤矿的储藏量,储藏深度,煤的成色。


之后是挖矿,要把这些埋在地下的矿挖出来,需要挖矿工,挖矿机,运输机。


之后是加工,洗煤,炼丹,等等。


最后才是转化为银子。


(105).jpg


数据行业十分类似:


挖掘数据的前提是有数据,包括数据的储藏量,储藏深度,数据的成色。


之后是数据挖掘,要把这些埋藏的数据挖掘出来。


之后是数据分析输出,要把这些数据可视化输出,指导分析、商业实践。


直到这一步,才创造了价值。


所谓的大数据,大约就是说现在有座正在形成的巨型矿山,快去抢占成为煤老板吧,下一个盖茨兴许将在这里诞生。


接下来好好说。如果说硬要说相似度的话,那么重合度的确是有很高。因为大数据干的事情其实就是数据挖掘做的事情。


(102).jpg


数据挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),这样说就很好解释了。数据挖掘就是从海量的数据中发现隐含的知识和规律。那么说,这个东西是啥时候提出来的?上个世纪。大数据啥时候提出来的?也就这几年的事情吧。所以说,大数据很大程度上是数据挖掘的一个好听的名字。



其实也不能一概否定“大数据”,至少通过媒体的热炒,让很多人知道了“数据”的重要性。只是很多人都不知道怎么做大数据,因为这个东西本来就是虚的嘛。如果想了解大数据,那么踏踏实实的做法是学习一下“数据挖掘”和“机器学习”相关的知识。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-3-21 18:50:45
数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-21 18:53:12
大数据是最近几年提出来,也是媒体忽悠的一个概念。有三个重要的特征:数据量大,结构复杂,数据更新速度很快。
在当今网络时代,我们每天都要同各种各样的数据打交道,我们自己也成为数据的一部分。不论我们想不想与大数据联系到一起,数据都会找到我们、覆盖我们,大数据时代已经来临。大数据正把我们变成新的物种。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维;其次,大数据改变了我们的生产方式,信息产品的加工将成为主要的生产活动;最后,大数据改变了我们的生活方式,我们的精神世界同物质世界一样将构建在大数据之上。


“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价值的见解和预言复杂问题答案的技巧与科学。它也许听起来有些乏味,但是从制止恐怖分子,到消除贫困,到拯救地球,对于大数据的鼓吹者来说,没有什么问题是解决不了的。


当前社会经历的过程就是数据化的过程,并且衣食住行都在逐步数据化。服装品牌公司为了描述自己的服装而花费巨大,设计师、模特、灯光、摄影、后期处理、文案表述、数据库、反馈下信息等等。人们出行需要依赖数据表达的地图,寻找餐馆银行需要依靠数据建立的地图模型。公司决定策略需要详尽的市场描述,收集巨量的数据模拟的模型。借助于物联网以及个人设备;数据已经成为一种常态出现在生活中,或许很多人没意识到而已。而意识到的人就在努力掘金。


只要有足够多的数据可以处理———不管是你的iPhone上的数据、杂货店购物状况、在线约会网站个人简介或者是整个国家的匿名健康记录,利用对这些原始数据进行解码的计算能力,人们可以获得数不胜数的有价值的见解。甚至连奥巴马ZF也已经赶上了这股潮流,并在5月9日向企业家、研究人员和公众“破天荒”发布了大量“以前难以获取或难以管理的数据”。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-21 18:54:09
大数据处理能力的提升对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-21 18:55:00
挖掘数据的前提是有数据,包括数据的储藏量,储藏深度,数据的成色。

之后是数据挖掘,要把这些埋藏的数据挖掘出来。

之后是数据分析输出,要把这些数据可视化输出,指导分析、商业实践。

直到这一步,才创造了价值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-21 18:55:35
数据挖掘就是从海量的数据中发现隐含的知识和规律。那么说,这个东西是啥时候提出来的?上个世纪。大数据啥时候提出来的?也就这几年的事情吧。所以说,大数据很大程度上是数据挖掘的一个好听的名字。
说到数据的作用,不得不提数据分析师这个职位。此职位一般来说倾向的是数学相关专业人士,使用数据来指导产品、运营、市场等工作,是公司中使用数据最多的人。在公司中,市场运营销售这几个部门也都是和数据关系很密切的。市场需要参考数据分析哪一个渠道推广效果更好,运营部门需要根据数据分析什么内容更能提高产品的活跃度,销售部门则需要数据反映公司的收入情况。当然,除了这些,数据挖掘就是另一个很重要的使用数据的方面了,可以使用数据对用户进行行为分析,从而挖掘用户的兴趣,最终达到精准推荐、精准营销的目的。

概括来看,数据的作用就是数据挖掘,就是试图从海量数据中找出有用的知识,也可以称为“知识发现”。数据挖掘的支撑技术主要包含统计学以及机器学习两方面。从这个角度来看,数据主要有以下两点作用:

数据统计:通过对数据的统计计算出一些和产品、用户相关的指标,从而指导产品、市场、运营、销售工作。

机器学习:使用相关技术让机器通过已有的数据学习到新的有用的知识。比如:从已有的用户行为数据分析得到用户的兴趣、爱好等信息,从而进一步实现用户个性化推荐。个性化推荐也是机器学习目前使用数据最为广泛的一点。


有了数据,就需要有存放数据的地方。数据库和数据仓库即存放数据库的两种形式。两者在本质上没有区别,都是为了存储数据。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群