经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
数据分析与数据挖掘
数据挖掘之数据预处理
楼主
luorongjin
7202
6
收藏
2011-02-25
对于数据分析而言,什么是核心?答案显而易见---数据。但是并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。所以有必要对数据进行预处理,接着就来讨论下数据预处理技术。 通常数据预处理包含四个部分:数据清理、集成和变换、规约以及概念分层。
数据清理又包含:遗漏值处理、噪音数据处理以及不一致数据的处理三类。
(1)对于大型数据库而言,要分析的某一维的某个属性中数据有遗漏是再正常不过的事情了,对于这种情况,有如下处理办法;忽略该元祖、人工填写、使用一个全局常量填充遗漏值、使用属性的平均值填充遗漏值、
使用与给定元组属同一类的所有样本的平均值、
使用最可能的值填充遗漏值。在此最常用的也是最合理个人认为是最后一种方法,可能值可以通过回归分析、贝叶斯形式方法或判定树等得出。(具体方法在以后博文中概述)(2)噪音数据:正如自然界有很多噪音一样,数据也会参杂很多杂质,除噪音的技术有分箱、聚类、计算机人工检查和回归。分箱技术只要是把数据分类然后用合理的数值替换原先数据,致使出去原数据中的噪音;聚类技术是通过“距离”等判别把数据进行概念分层,过渡到更高一级的层次;回归技术则是利用回归模型,用模型预测值代替原有数据。(3)不一致数据:可以查资料进行手动更正。
数据集成和变换.数据集成顾名思义是把多个原数据中的数据结合、存放到一个数据存储。如数据仓库。其中要考虑三个问题:实体识别、数据冗余和数据值冲突检测与处理。数据变换是数据处理的必然结果,主要有平滑、聚集、数据泛化、规范化以及属性构造。其中平滑可以用分箱、聚类和回归来实现。数据泛化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中。规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。
数据规约:当你面临大型数据库中的海量数据时,要分析这些数据是个很庞大的工程,如果对所有数据进行分析和挖掘,将要耗费很长的时间。如果我们能把握主要数据,那么分析起来将快捷很多。此类技术主要有如下几类:数据方聚集、维规约(
检测并删除不相关、弱相关或冗余的属性或维
)、数据压缩(小波或傅立叶变换以及主成份分析)、数值规约(
用替代的、较小的数据表示替换或估计数据
):主要有回归、直方图、聚类、选样等操作;还有概念分层。
以上,大致介绍了一些数据预处理的基本方法和思路,具体的方法另外再详细介绍。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
远婷
2011-2-25 11:57:55
有用,留着。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
gracechen0707
2011-3-4 14:16:12
这个是一个背景介绍么
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
luorongjin
2011-3-7 09:06:10
你好!这里只是简单介绍下数据挖掘前期的数据预处理步骤和方法,具体的方法要视不同的情况,不同的算法而定。本文抛砖引玉,提供一个思路,如有差错还望多多指证,一起交流进步,谢谢!
3#
gracechen0707
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
报纸
junmeili
2011-3-10 02:26:19
just an introduction, do you have more detailed information?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
地板
lililiu33
2011-3-30 09:54:05
看看,了解了解也好
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
点击查看更多内容…
7楼
michael.lee
2012-9-11 15:31:30
再说说模型建立、训练 啊
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
[原创]web日志数据挖掘数据预处理研究(论文pdf)
基于数据挖掘的专利数据预处理系统的设计与实现
论数据挖掘中的数据预处理技术
数据挖掘中的数据预处理
数据挖掘中的数据预处理模型与算法研究
数据挖掘中的数据预处理与维度优化
数据挖掘中的数据预处理技术
基于数据挖掘的图书数据预处理
数据挖掘中数据预处理在图书借阅中的应用
数据挖掘中不可忽视的环节——数据预处理
栏目导航
数据分析与数据挖掘
经管文库(原现金交易版)
管理科学与工程
金融学(理论版)
统计软件培训班VIP答疑区
经管高考
热门文章
CDA数据分析脱产就业班于2026年3月7日开班! ...
天堂的证据(〔美〕埃本·亚历山大)
半导体行业分析手册之二:混合键合设备,AI ...
芜湖造船厂为我国高端船舶制造自主创新再添 ...
表格结构数据特征与CDA数据分析师:精准适配 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
在概率与代码之间:Agent Skills 是 AI 的枷 ...
新宏观丨豆包,传统经济学与商学对全球性债 ...
失去的三十年:平成日本经济史(【日】野口 ...
硅光芯片代工爆发式增长,重构全球半导体产 ...
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
【新课】26年3月|Gemini辅助论文写作与数据 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群