全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1244 0
2016-11-27
什么是数据挖掘_数据挖掘的任务_数据挖掘基础知识
数据挖掘入门,个人的感觉是,先学统计还是先学编程和相关的数据挖掘包,起点不同,思考方式会不同,但并不耽误做事,因为目的都是解决问题。

选择先了解统计的话,建议The Elements of Statistical Learning,配合R和Python。选择Python编程直接边做边学的话,看Scikit-Learn的Documentations,配合KDD的题目和数据,还有Andrew Ng的机器学习公开课,书的话,推荐Tom Mitchell的Machine Learning.

路径很多,资源很多,最重要是兴趣和保持专注,因为这个领域发展很快,竞争也越来越大,需要不断学习下去。要教机器学东西呢,自己都拎不清逻辑和路径,眼光不够远,就不好啦。


1什么是数据挖掘/分析
简单地说就是,在大型数据库中,自动发现有用信息的过程,加以分析。其中数据库中的知识发现是重要的环节,也就是人们说的KDD,knowledge discovery in database。

2KDD是什么
其实就是一个数据处理的过程,从输入数据开始,进行预处理工作,包括特征选择,维归约规范化和选择数据子集等等,随后进行分析和挖掘,再经过处理,例如模式过滤,可视化,模式表示等,最后形成可用信息的过程。

3数据挖掘要解决什么问题
具体的讲主要是以下几个,首先是数据的可伸缩性,提高或改变数据的可伸缩度。其次是解决数据高维性的问题。处理异种数据和复杂数据。解决数据所有权与分布问题。对非传统的分析进行合理处理。

4数据挖掘的任务
其实主要包括四个大块,可以独立运行,也可以联合操作,分别是聚类分析,预测建模,关联分析,异常检测。
聚类分析实用的技术包括K均值,凝聚层次聚类,dbscan,簇评估等,主要目的是通过基于原型,密度,图等的聚类,发现其间的关系。
预测建模则更多的是一种可视化角度分析方法,利用分类,回归等方法,来建立模型解决问题。
关联分析顾名思义,更多强调数据中的特征强关联,例如说过一万次的啤酒与尿布等。
异常检验则主要是识别不同于其他数据的具有显著特征值的数据。

5基础知识有什么
想学习数据挖掘,几个基础知识是必备。首先是线性代数,包括向量,矩阵等。否则你根本不会是用科学工具。其次是维归约,包括PCA,SVD等技术的使用。还有概率统计,回归方程,优化,也是必备知识。暂时写这么多,有时间再多说些。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群