求教连老师，关于缺省值

2283

收藏 2010-02-03

我又来麻烦连老师了，这次的问题是关于缺省值的处理，您在视频中提到drop if x1==.| x2==. 但这个是把有某些项缺省值的被调查者的所有其他记录都删除，可是我不想这样，因为，比如A同学，虽然没有填X3,Y2, Y3,但是Y1, ,X6, X7都填了，我还是希望在考虑Y1和X6,X7关系的时候，可以将A同学纳入其中，而在涉及他没填的X3,Y2,Y3与其他变量时，忽略这名A同学。希望stata也能像spss那样exclude missing value。以下是我的变量介绍：

我做一个关于教育投资回报的论文，是个让湖北部分高校毕业生填的调查问卷，样本为700多。
Y1: 大学毕业第1年收入       缺省值30/700 （就是按您所教，输入codebook Y1, Y2, Y3, X3, X6, X7....得到的缺省数目的显示)
Y2: 第3年收入    缺省值45/700
Y3: 第5年收入    缺省值78/700

X3:父母学历    缺省值22/700
X6：大学的级别缺省值29/700
X7:大学的专业  缺省值 21/700

我最后选择多元logit回归做这篇论文，感谢老师关于logit回归的笔记，我遐想着是不是可以在多元logit回归后面，即命令mlogit wage occ educ major tiers, 后面加一个忽略missing value的选项？或者用一个一劳永逸的命令来忽略missing value,就是无论用什么模型（logit regression, OLS, panel data, time series....whatever), 都可以忽略掉缺省值对结果的影响。我觉得我样本缺省值不多，在10%以内吧。

感谢连老师！！！！！！！！！！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yellowriver

2010-2-3 17:17:28

补充一下，我的样本是随机样本，听论坛上讨论说随机样本缺省就让它缺省，不要管它，更不要给它们自己赋上什么值，保持样本本来面目就行。可是我就是想忽略掉，画图的时候也不要画出来。
1# yellowriver

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

arlionn

2010-2-3 20:06:04

这个问题无需处理，stata会自动帮你处理。

对应于你的样本：
Y1: 第1年收入    缺省值30/700
Y2: 第3年收入    缺省值45/700
Y3: 第5年收入    缺省值78/700
X3:父母学历    缺省值22/700
X6：大学的级别缺省值29/700
X7:大学的专业    缺省值 21/700

如果你用 y1 对 x3 回归，则stata会判断二者公共的缺省值，这些样本不会包含在回归中。

输入如下命令可以检验这个问题：
count if y1==. | x3==.  // 假设这里呈现的结果是 35
那么，如下回归命令执行后将使用 700-35=665 个样本：
reg y1 x3
也就是说stata会自动根据你设定的变量来确定缺漏值的个数，这些缺漏值会自动被排除在回归分析之外。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yellowriver

2010-2-4 03:27:47

感谢连老师，再多问一句，任何回归都可以自动排除吗？比如mlogit。谢谢！
3# arlionn

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

arlionn

2010-2-4 08:40:09

基本上多数的命令都有这个功能，尤其是官方命令。

因为在编程时，这个功能很容易实现，只需要增加一句：

marksample toze

即可。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群