数据挖掘之数据预处理

7202

收藏 2011-02-25

对于数据分析而言，什么是核心？答案显而易见---数据。但是并不是所有的数据都是有用的，大多数数据是参差不齐的，概念层次不清的，数量级不同的，这就给后续的数据分析和数据挖掘带来的极大的麻烦，甚至导致错误的结论。所以有必要对数据进行预处理，接着就来讨论下数据预处理技术。    通常数据预处理包含四个部分：数据清理、集成和变换、规约以及概念分层。
   数据清理又包含：遗漏值处理、噪音数据处理以及不一致数据的处理三类。
（1）对于大型数据库而言，要分析的某一维的某个属性中数据有遗漏是再正常不过的事情了，对于这种情况，有如下处理办法；忽略该元祖、人工填写、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、使用与给定元组属同一类的所有样本的平均值、使用最可能的值填充遗漏值。在此最常用的也是最合理个人认为是最后一种方法，可能值可以通过回归分析、贝叶斯形式方法或判定树等得出。（具体方法在以后博文中概述）（2）噪音数据：正如自然界有很多噪音一样，数据也会参杂很多杂质，除噪音的技术有分箱、聚类、计算机人工检查和回归。分箱技术只要是把数据分类然后用合理的数值替换原先数据，致使出去原数据中的噪音；聚类技术是通过“距离”等判别把数据进行概念分层，过渡到更高一级的层次；回归技术则是利用回归模型，用模型预测值代替原有数据。（3）不一致数据：可以查资料进行手动更正。
   数据集成和变换.数据集成顾名思义是把多个原数据中的数据结合、存放到一个数据存储。如数据仓库。其中要考虑三个问题：实体识别、数据冗余和数据值冲突检测与处理。数据变换是数据处理的必然结果，主要有平滑、聚集、数据泛化、规范化以及属性构造。其中平滑可以用分箱、聚类和回归来实现。数据泛化过程即概念分层，将低层次的数据提炼到更高一级的概念层次中。规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。
   数据规约：当你面临大型数据库中的海量数据时，要分析这些数据是个很庞大的工程，如果对所有数据进行分析和挖掘，将要耗费很长的时间。如果我们能把握主要数据，那么分析起来将快捷很多。此类技术主要有如下几类：数据方聚集、维规约（检测并删除不相关、弱相关或冗余的属性或维）、数据压缩（小波或傅立叶变换以及主成份分析）、数值规约（用替代的、较小的数据表示替换或估计数据）：主要有回归、直方图、聚类、选样等操作；还有概念分层。
   以上，大致介绍了一些数据预处理的基本方法和思路，具体的方法另外再详细介绍。