Unknown数据处理问题

2017

收藏 2014-02-26

现在在做卫生经济方向的论文遇到一个问题在一个样本总量80000的样本里有多个和病因相关的变量都是问卷形式回答 yes no 或者 unknown 我想做一个ordered probit回归以这些病因变量为自变量但是每个病因变量的Unknown比例太大少则10% 多则98% 不知该如何处理？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

凭雨听风

2014-2-26 09:01:11

目前我的想法是
把UNKNOWN数据赋值为0
YES赋值为1
NO赋值为-1
这样不知道是不是可行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jjjj6666

2014-2-26 11:17:07

if the percentage is not high, may consider using imputation approach if the unknown happens randomly. If the percentage is high, not sure if there is a good approach. Also, The person who responds may select unknown on purpose, in this case, imputation is also not good since something is hiding in the unknown response.

other people may have better suggestions?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群