我在用倾向值匹配方法时,发现ATT的处理组和控制组样本之和大于倾向得分估计时Logistic回归的样本量,实在是困惑!
首先说明:数据中有些变量含有缺失值,我没有去掉,因为stata处理时不是默认不带入有缺失值的样本么?
在此给出我的命令,大家帮忙看看是否有问题:
. global breps 200
. global xlist sex exp exp2 pol hk edu1 edu2 edu3 eduf1 eduf2 eduf3 region1 region2 region3
. pscore sy Sxlist(注:S表示引用宏变量的符号,因为原符号发帖会乱码,故用S代替), pscore(myscore) blockid(myblock) numblo(5) level(0.005) logit
. set seed 10101
. attnd lny sy $xlist, comsup boot reps(200) dots logit
sy是二分变量,就是ATT的估计分类对象,lny是因变量。
而且我在把lny为缺失值的样本去掉后,ATT就会发生很大的变化,多数情况下还变得不显著,但是匹配样本量还是够用的,这又是为什么?
研究急用,非常感谢您的解答!