立即打开
什么是数据挖掘?如何驾驭大数据?数据分析与数据挖掘
既然大数据通常是 “大体量、发杂多样、高速实时”,而且不是 “结构化” 的,这就引出一个问题,如何驾驭大数据?
前面提到,人们发明出包括数据收集、存储、抽取、转化、加载、清洗、分析、挖掘和应用的方法用以驾驭大数据,而 “数据挖掘 Data mining” 就是对各种挖掘工具方法的统称。
要理解 “数据挖掘” ,可以和 “数据分析” 做个简单比较
- 数据分析的分析目标往往比较明确,分析条件也比较清楚,基本上就是采用统计方法,对数据进行多维度地描述;
- 数据挖掘的目标却不是很清晰,要依靠挖掘算法来找出隐藏在大量数据中的规律和模式,也就是从数据中提取出隐含的、未知的有价值的信息。
在实践中,数据挖掘一般划分为 “分类”、“聚类”、“关联” 和 “序列” 等几大常见问题,针对每一类问题,又有专门的挖掘算法来处理。例如,用户流失预警模型、促销活动响应模型都用于预测用户某个行为的发生概率,属于 “分类” 问题,可以用决策树算法、逻辑回归算法、多元线性回归、神经网络算法来处理。
想了解大数据的朋友可以看看《驾驭大数据》(Bill Franks 著、黄海译、人民邮电出版社),是入门书籍里比较系统的,很适合帮助自己对大数据形成一个基本认知框架。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群