your question:
假设总体人群的样本为N,生病的人群为n,n<N,
1、logistic回归的样本应该是n,heckman模型中的样本是n还是N?
2、在stata中heckman命令中两步代入的变量能否一样?
我的理解
首先第一步应该是probit回归;
第二,在第一步回归中,用的是全部样本N;在第二步回归中,用的是n。
参考实例:
webuse school,clear
heckprob private pub5 school,select( vote =loginc logptax)
结果如下
Probit model with sample selection Number of obs = 95
Censored obs = 36
Uncensored obs = 59
Wald chi2(2) = 0.00
Log likelihood = -74.98448 Prob > chi2 = 1.0000
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
private |
pub5 | -4.851684 18195.19 -0.00 1.000 -35666.76 35657.06
school | -4.180223 573.9764 -0.01 0.994 -1129.153 1120.793
_cons | -.9723302 .8691612 -1.12 0.263 -2.675855 .7311943
-------------+----------------------------------------------------------------
vote |
loginc | 1.095287 .439451 2.49 0.013 .233979 1.956595
logptax | -1.139577 .5603804 -2.03 0.042 -2.237903 -.0412519
_cons | -2.691405 3.672407 -0.73 0.464 -9.88919 4.50638
-------------+----------------------------------------------------------------
/athrho | -.4130508 1.168952 -0.35 0.724 -2.704154 1.878053
-------------+----------------------------------------------------------------
rho | -.39106 .9901864 -.9910815 .9543186
------------------------------------------------------------------------------
LR test of indep. eqns. (rho = 0): chi2(1) = 0.11 Prob > chi2 = 0.7436
看一下黑体部分
总样本为95,在第一步的probit model用的是95个样本;
censored部分为36,即这36个没有出现在第二步的主回归里,因为他们的dependent var是缺失值(或无法观察到)
第二步的回归样本值为59.
关于你的第二个问题:
在stata输入里,两步的解释变量可以完全一样。如果讲理论模型,第二步实际上还增加了一个变量,这个变量是根据第一步的选择模型得出(具体可以放狗搜索无数的heckman模型)。