全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
52752 25
2014-10-30
       虽然用了很多遍的stata,但是说实话基础知识没有很扎实,所以来询问。
       我之前处理数据的时候,是把关键变量(比如自变量、因变量)的缺失值都删掉,至于控制变量(比如性别、年龄),因为只缺失几个,所以我当时的处理方法就是直接把这些变量也都删掉。
      但是现在在处理chns数据,发现其中有一个控制变量,性别,一旦删掉它的缺失,样本量将减少2/3,于是我有所顾虑。如果将这一变量的缺失值删掉,整个人群的结构都将发生变化,比如之前的已婚率是65%,现在就将变成53%,感觉这样的处理个人干预过多,使得数据失真;但如果不删除这些缺失,我不知道跑回归的时候stata是怎么来处理这些缺失的,以及这些缺失会对结果造成什么影响吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-7 16:01:39
如果某一个变量的缺失值特别多建议回归方程中就不要加入这个变量了,因为回归的时候用的是所有变量都不缺失的观测值
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-11 23:41:53
ermutuxia 发表于 2014-11-7 16:01
如果某一个变量的缺失值特别多建议回归方程中就不要加入这个变量了,因为回归的时候用的是所有变量都不缺失 ...
啊谢谢您~我后来问了老师,老师的意思跟您是一样的。

不过我的考虑是这样:我想分离出来两个群体A和B,然后就人群特征做一分析,以及这两人群的收入差异做以一分析。考虑到人群特征,我就不敢对数据进行大处理,特别是删掉很多缺失。不过后来我选择了其他年份后发现缺失没有特别严重。但有一项是受教育程度,大概有20个的缺失,样本总量是300+。我看了版上的一些贴,说是可以用SPSS做一个缺省值分析,判断他到底是随机丢失还是其他,然后根据情况再对缺失值进行处理。我在这里采取了这种方式~不知道有没有问题?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-12 01:37:49
关于你这个问题,我好像在一本书上看到过,有种办法就是填充缺失值,例如你说的这个男女比例,你先统计没缺失值的,然后根据统计的男女比例去填充缺失值。我是菜鸟,只大概记得这种办法,希望能帮助你。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-12 01:39:30
你还可以不要那个变量,先回归下,然后再取那些没缺失值得回归下,看下这个变量存在是否显著。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-12 21:05:36
礼蕊昂 发表于 2014-11-12 01:37
关于你这个问题,我好像在一本书上看到过,有种办法就是填充缺失值,例如你说的这个男女比例,你先统计没缺 ...
好的~超感谢你的~我去试一下~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群