全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
7202 6
2011-02-25
对于数据分析而言,什么是核心?答案显而易见---数据。但是并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。所以有必要对数据进行预处理,接着就来讨论下数据预处理技术。     通常数据预处理包含四个部分:数据清理、集成和变换、规约以及概念分层。
     数据清理又包含:遗漏值处理、噪音数据处理以及不一致数据的处理三类。   
    (1)对于大型数据库而言,要分析的某一维的某个属性中数据有遗漏是再正常不过的事情了,对于这种情况,有如下处理办法;忽略该元祖、人工填写、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元组属同一类的所有样本的平均值、使用最可能的值填充遗漏值。在此最常用的也是最合理个人认为是最后一种方法,可能值可以通过回归分析、贝叶斯形式方法或判定树等得出。(具体方法在以后博文中概述)(2)噪音数据:正如自然界有很多噪音一样,数据也会参杂很多杂质,除噪音的技术有分箱、聚类、计算机人工检查和回归。分箱技术只要是把数据分类然后用合理的数值替换原先数据,致使出去原数据中的噪音;聚类技术是通过“距离”等判别把数据进行概念分层,过渡到更高一级的层次;回归技术则是利用回归模型,用模型预测值代替原有数据。(3)不一致数据:可以查资料进行手动更正。
     数据集成和变换.数据集成顾名思义是把多个原数据中的数据结合、存放到一个数据存储。如数据仓库。其中要考虑三个问题:实体识别、数据冗余和数据值冲突检测与处理。数据变换是数据处理的必然结果,主要有平滑、聚集、数据泛化、规范化以及属性构造。其中平滑可以用分箱、聚类和回归来实现。数据泛化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中。规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。
     数据规约:当你面临大型数据库中的海量数据时,要分析这些数据是个很庞大的工程,如果对所有数据进行分析和挖掘,将要耗费很长的时间。如果我们能把握主要数据,那么分析起来将快捷很多。此类技术主要有如下几类:数据方聚集、维规约(检测并删除不相关、弱相关或冗余的属性或维)、数据压缩(小波或傅立叶变换以及主成份分析)、数值规约(用替代的、较小的数据表示替换或估计数据):主要有回归、直方图、聚类、选样等操作;还有概念分层。
     以上,大致介绍了一些数据预处理的基本方法和思路,具体的方法另外再详细介绍。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-2-25 11:57:55
有用,留着。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-4 14:16:12
这个是一个背景介绍么
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-7 09:06:10
你好!这里只是简单介绍下数据挖掘前期的数据预处理步骤和方法,具体的方法要视不同的情况,不同的算法而定。本文抛砖引玉,提供一个思路,如有差错还望多多指证,一起交流进步,谢谢! 3# gracechen0707
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-10 02:26:19
just an introduction, do you have more detailed information?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-30 09:54:05
看看,了解了解也好
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群