全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
4157 3
2015-03-31
悬赏 50 个论坛币 已解决
       本人第一次做数据清洗,虽然之前有学过一些数据清洗的方法,但是仍然对手头噪音很大,数量很多的数据感觉到无从下手。现征求各位高手看过的好的关于数据清洗的案例书或其他资料,或者关于如何对大量原始数据一步步分析建模的,要求讲的越具体越好。
      谢谢大家帮忙!

最佳答案

hzcmaster 查看完整内容

专题性质的:Functional Data Analysis和Functional Data Analysis with R and MATLAB可以看一看,前者讲的是方法与实例,后者是配套的代码解释与说明。 涉及面较广的: R数据分析——方法与案例详解,电子工业出版社。 以上均可找到电子版的内容,如果看了有兴趣建议买纸质的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-3-31 21:44:46
幸运的小p超 发表于 2015-5-25 15:58
谢谢你,一些基本的处理理论倒是看过一些,不知道题主有没有一些关于统计处理的详细的案例分析书可以推荐 ...
专题性质的:Functional Data Analysis和Functional Data Analysis with R and MATLAB可以看一看,前者讲的是方法与实例,后者是配套的代码解释与说明。
涉及面较广的:
R数据分析——方法与案例详解,电子工业出版社。
以上均可找到电子版的内容,如果看了有兴趣建议买纸质的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-20 13:30:52
数据清洗的方法有很多,一一介绍也不太现实,按降噪类型大致描述一下吧
第一类:缺失数据
这一类的处理方法当数据量适中或较少时以补齐居多,如果数据量很大,一般缺失数据可以忽略也就是剔除。补齐的方法通常用均值、中位数等等特征值来代替,复杂一点可以利用插值或者拟合,这一类方法可以参考有关回归的书籍
第二类:异常数据
这一类问题的处理方法是剔除异常点,给定一个标准例如KL距离,COOK距离将异常点挑选出来剔除,详细内容见《统计诊断》
第三类:拟合
经过缺失、异常点处理后的数据算是质量较好的数据,但是这类数据存在随机误差,也就是说你观察到的数据与真实数据之间有一定的偏差,这个偏差我们记为随机误epsilon。要想得到接近真实的数据,我们就要消除随机误差和人为误差。
随机误差一般通过拟合的方法,有关拟合的统计书籍很多,就不一一介绍了。说一下人为误差,我们想要直到一个人的字迹,就需要对他已有的字迹进行总结,但是,他的字迹大小未必相同,起笔的时间未必相同,所以为了消除大小、时间的影响,我们有必要进行重复观测,然后经过时间和位置的平移,再进行拟合。详情可见《functional data analysis》
在此之前,希望楼主先掌握一些统计的常用基本工具,这会让你对数据处理有更多的认识。可参考《The elements of statistical learning》
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-25 15:58:38
hzcmaster 发表于 2015-5-20 13:30
数据清洗的方法有很多,一一介绍也不太现实,按降噪类型大致描述一下吧
第一类:缺失数据
这一类的处理方 ...
谢谢你,一些基本的处理理论倒是看过一些,不知道题主有没有一些关于统计处理的详细的案例分析书可以推荐的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群