全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 悬赏大厅
10000 13
2016-05-18
悬赏 100 个论坛币 未解决
RT,各位在用软件跑数据前,是如何对数据进行预处理的?缺失值,异常值,数据变换……?欢迎讨论,集思广益。撒点币聊表心意。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-5-18 19:02:51
我也有同样的困惑,求解答
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-18 19:56:49
在用软件跑数据前,进行数据清洗是非常关键的一步。主要内容有(1)变换数据格式为你分析时所需要的标准格式,包括日期,顺序等要转换成与你的软件matlab,SAS,STATA等相适用的格式;(2)注意异常值和缺失值,异常值要去除,缺失值要插补;(3)对于公司金融等领域的研究,还需要注意用winsorize等所谓处理的方法将极端值处理掉;(4)清洗数据最方便的软件是SAS,可以处理大量的数据,并且处理的程序一定要养成一段程序跑完所有过程的习惯。即输入原始数据,用一个清洗程序处理成你所需要的格式,做到一键点击大功告成的效果。希望以上对你有所帮助。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-18 21:51:34
找异常、缺失时候,我比较喜欢画图(直观,异常值立刻就暴露了)、计算每个量的均值方差最大最小。
发现缺失值以后,我会考虑两种方式:一个是把这条记录全删了,简单粗暴;或者插补,具体怎么补就要看问题是什么了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-19 08:48:05
ljcwsh 发表于 2016-5-18 19:56
在用软件跑数据前,进行数据清洗是非常关键的一步。主要内容有(1)变换数据格式为你分析时所需要的标准格式 ...
可否请问具体异常值与极值的处理方法呢?是均值加减3倍标准差?还是用箱图确定呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-5-20 05:14:51
这个真的需要看情况定。

一般首先看这个变量的值的分布图,看是不是有什么异常值。异常值的处理有几种方式:
  • 如果很明显异常值是由于输入/测量错误,那么应该舍弃这个异常值:例如,在一个健康数据中,如果一个成年女人的体重是19斤,明显是输入错误,也许应该是91斤,或119斤,但我们不得而知,所以只好删掉这个值;
  • 如果在一个正态分布的变量中,一般高于3或低于-3的 z-score 都可以视为异常值,而被删除。尤其是当这个值的存在会显著的改变分析结果。
  • 另外还有一个方法是对变量进行处理,比如经济中常用的对收入的处理,因为测量误差很多,可以取log把异常值的影响减小。

总之,每个数据不一样,要先熟悉自己的数据,多尝试几种分析结果。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群