全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
8258 10
2010-11-28
本人刚接触计量,诚心请教

当我在regress wage on各种自变量的时候,发现其中的一个自变量,比如IQ test的数据大量缺失,初步估计有40%的数据都是空白。

在此种情况下,我是否应该drop掉该自变量?
具体应该是以何种原因说明?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-11-28 23:33:20
您的问题真的算很难。
您问的是drop掉该变量,所以如果这个变数不重要,那拿掉就拿掉吧。

以下的论点是在,该变量不可以拿掉,但该变量有大量缺失值,这样不完整的dataset怎么办…
若要看书,建议Colin amd Trivedi的Microeconomietrics methods and applictions的
Chapter 27 Missing Datat and Imputation是您不错的参考章节。
当然stata的手册[MI]也很值得参考。[SAS也有专门对应的处理方式】

首先,您应该确定您的IQ test的数据大量缺失究竟是怎样的缺失法。
这会扯到缺失机制的问题,在某些缺失机制下【譬如MAR,指missing at random】
则,可忽略。【可忽略的意思是,就在不完整的资料下做吧! 专业一点的术语 listwise delection】

究竟多少缺失比率下,可采用listwis delection?
书上指出 Schafer,1996建议 5%或更少。
但我曾听过这方面的研究,由学弟们报告【哪一篇我实在忘了】
大概最高不得超过30%【比率实在不好说,我不确定,因为这方面的探讨应该一两年前听过的】

最后,如果是问我个人,我觉得该变数实在不宜拿掉。
因为Wooldridge的书,最爱举IQ test对wage的影响。
少掉这变数,一定会被质疑可能有衡量误差…问题。
若这个变数不宜拿掉,则这又带来一个问题,缺失值怎么办?
则stata的[MI]就派上用场了! 至于缺失值该填什么? 我想这是您该自己去想想的问题。
譬如IQ test可能与什么有关? 受教育年数? 年龄? 父母的受教育年数?
等您思索好,则可完成多重插补这些missing value

希望对您有所帮助,写的好累阿! 评个分吧! 哈哈!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-11-29 00:22:00
2# h3327156


实在太感谢楼上的大侠了,太专业了,哈哈。

我刚才一直在研究这个问题。

关于缺失机制,我实在不好判断是何种原因。因为作业的数据就是这么给的……其他的IQ result的分布也没其他异常,所以不知道是mar还是nmar还是mcar...

IQ对于wage的确是伍德里奇喜欢举的一个例子。我也很像检验他们之间的关系。
问题是我刚才用stata统计了一下,1670个obs,650个mv,缺失率是39%,将近40了。

在缺失率这么大的情况下,用均值填,甚至用multiple imputation算出来的填充数据是否能作准?

等待大侠的回复。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-11-29 01:03:54
用均值代,书上是指没有模型基础下的填代【实在想不出决定IQ test的是什么,那用这个不错】
用MI的方法,这是有模型基础的。

我个人认为,是可以作准的,missing value该填什么,有很多种方法的。
这些方法,很难说哪一个比较好。【虽说也有文献去模拟并比较各种方法!】
但任何一种方法,都希望猜出这些missing vlaue值可能是什么,
而且希望比较大比较多的dataset,进而有比较多的information,
避免模型估计的偏误与不精确。

缺失率再大,放弃绝对不是一个好方法。
均值法或MI法都好,这些方法都是希望更好,不是吗?
至少我们可能越接近完美了!

为尊重前人的研究,建议在使用时,
把stata的手册引用上去,或者书上提到的一些文献,调出来引用上去。
最后,Rubin (1976)那篇,大概这方面的研究都不得不引用的经典文献。

我不是大侠…欢迎讨论。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-11-29 04:09:55
4# h3327156


发现处理missing data还真的是一个比较大的课题。。

如果我用均值替代法,在stata中
直接用mean IQ算出来的均值是包括了缺省值的均值还是剔除了缺省值的均值?
比如x1=1,x2=missing,x3=2
mean x=(1+2)/2=1.5?

stata处理缺失数据的默认方式是怎样的呢?
把missing的data当做0处理?

我应该用何种命令去替代缺省数据的均值呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-11-29 20:17:05
嗯!确实是一个很大的课题。
否则stata手册不会一个[MI”两百多页…看到我都想放弃,不做了!

均值替代法,这边提的是比较不专业的,【所谓不专业,是指就不用stata专属的mi指令去做】
您的问题很好,您指的作法,均值是剔除了缺省值的均值
以下是我建立的一个例子:您参考看看~
1.我假设,sch【受教育年数】而另一变量iq【这就不说了】
2.而misssing的iq均值,由相同sch的个体去构成
【这个作法下的新iq变量,叫newiq】
【这有个盲点,如果相同sch的人,全部都拒答成missing值,则无法计算】
3. newiq2指的是,所有missing的iq值,通通由非misssing的iq均值构成。

input iq sch
iq sch
80 12
90 12
. 11
120 16
80 11
. 9
140 18
70 9
. 9
92 16
end

mean iq

bysort sch: egen missing_iq=mean(iq)
gen newiq=missing_iq if iq==.
replace newiq=iq if iq!=.

egen newiq2=mean(iq)
replace newiq2=iq if iq!=.

sum iq newiq newiq2


最后,也许您想执行multiple imputation,
help mi imp
【要讲实在超多的,不如您好好看手册】
不过在执行mi imp前,
您要先设定一些东西【help mi set】
mi set
………
【简言之,这是在对您missing值资料的设定与插补设定,不废言,看手册】
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群