专题性质的:Functional Data Analysis和Functional Data Analysis with R and MATLAB可以看一看,前者讲的是方法与实例,后者是配套的代码解释与说明。
涉及面较广的:
R数据分析——方法与案例详解,电子工业出版社。
以上均可找到电子版的内容,如果看了有兴趣建议买纸质的。
专题性质的:Functional Data Analysis和Functional Data Analysis with R and MATLAB可以看一看,前者讲的是方法与实例,后者是配套的代码解释与说明。
涉及面较广的:
R数据分析——方法与案例详解,电子工业出版社。
以上均可找到电子版的内容,如果看了有兴趣建议买纸质的。
数据清洗的方法有很多,一一介绍也不太现实,按降噪类型大致描述一下吧
第一类:缺失数据
这一类的处理方法当数据量适中或较少时以补齐居多,如果数据量很大,一般缺失数据可以忽略也就是剔除。补齐的方法通常用均值、中位数等等特征值来代替,复杂一点可以利用插值或者拟合,这一类方法可以参考有关回归的书籍
第二类:异常数据
这一类问题的处理方法是剔除异常点,给定一个标准例如KL距离,COOK距离将异常点挑选出来剔除,详细内容见《统计诊断》
第三类:拟合
经过缺失、异常点处理后的数据算是质量较好的数据,但是这类数据存在随机误差,也就是说你观察到的数据与真实数据之间有一定的偏差,这个偏差我们记为随机误epsilon。要想得到接近真实的数据,我们就要消除随机误差和人为误差。
随机误差一般通过拟合的方法,有关拟合的统计书籍很多,就不一一介绍了。说一下人为误差,我们想要直到一个人的字迹,就需要对他已有的字迹进行总结,但是,他的字迹大小未必相同,起笔的时间未必相同,所以为了消除大小、时间的影响,我们有必要进行重复观测,然后经过时间和位置的平移,再进行拟合。详情可见《functional data analysis》
在此之前,希望楼主先掌握一些统计的常用基本工具,这会让你对数据处理有更多的认识。可参考《The elements of statistical learning》