全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
3017 1
2022-10-30
Heckman两阶段模型适用于解决由样本选择偏差(sample selection bias)造成的内生性问题。

首先,计算全部样本的IMR;随后,将遗漏变量IMR代入原回归方程中,具体来说:

第一步 用probit方法估计选择方程,其中原回归方程的被解释变量y是否被观测到或是否取值的虚拟变量y_dummy作为probit的被解释变量,解释变量包括原回归方程所有解释变量和至少一个外生变量,该外生变量只影响y是否取值,而不影响y的大小,即满足相关性和外生性的要求(但不是工具变量)。估计出所有变量的系数后,将样本数据代入至probit模型中,计算出拟合值 y_hat,再将y_hat代入风险函数中计算出IMR。

有四点需要注意:
(1)选择方程的被解释变量是原回归方程中被解释变量y是否被观测到或是否取值的虚拟变量,即y_dummy,当y取值不为空(包括取值为0)时,y_dummy等于1,只有当y_dummy取值为空(missing)时,y_dummy才等于0。关于这一点,现实应用中存在的问题是,即便我们十分清楚存在样本选择偏差,但由于前期数据搜集过程中直接忽视了y取值为空的样本,因此无法采用样本选择模型,因为样本选择模型第一步选择方程使用的是所有样本,包括y取值为空的样本和取值不为空的样本。

(2)选择方程的被解释变量只能是原回归方程中被解释变量y是否被观测到或是否取值的虚拟变量,而不能是其他变量,更不能是解释变量是否取值的虚拟变量。如果第一步回归的被解释变量是原回归中解释变量是否取值的虚拟变量,那么该模型就不再是样本选择模型了,关于这一点,实际应用中经常被搞混。

(3)第一步选择方程的解释变量必须要包括原回归中所有解释变量和至少一个外生变量,也就是说,原回归的解释变量是选择方程解释变量的真子集。如果只使用原回归中一部分的解释变量或不引入外生变量,那么就不能确保IMR与原回归的随机干扰项不相关,从而造成估计系数依然存在偏误。实际应用中,多数文献并未引入外生变量,部分文献甚至没有汇报第一步选择方程中的解释变量,这样的做法十分不推荐。此外,论文中如果引入了外生变量,就需要对相关性与外生性进行具体说明,其中相关性不能只从外生变量的回归系数显著这一个方面进行说明,还要从其他文献和从理论上进行分析;外生性的说明与之类似。

(4)第一步选择方程只能使用probit模型进行回归,不能使用logit模型。在选择方程中,假设扰动项服从正态分布,从而可以推导出将IMR代入原回归方程可以缓解样本选择偏差问题,因此对于被解释变量为0-1型的虚拟变量,只能使用probit模型而不能使用logit模型,因为logit模型不具有扰动项服从正态分布的假设。但问题是,probit假设时间效应和个体效应与扰动项不相关,即第一步选择方程中只能使用随机效应模型,不能使用更一般化的固定效应模型。实际应用中,多数文献在汇报第一阶段回归结果时,在末尾加上“时间固定效应 - Yes”、“个体固定效应 - Yes”等,这样的做法是有待商榷的,因为这根本就不是固定效应模型。

第二步 将第一步回归计算得到的IMR作为控制变量引入原回归方程中。如果IMR显著,说明原回归中存在样本选择偏差,需要使用样本选择模型进行缓解,而其余变量的回归系数则是缓解样本选择偏差后更为稳健的结果;如果IMR不显著,说明原回归存在的样本选择偏差问题不是很严重,不需要使用样本选择模型,当然,使用了也没关系,因为引入控制变量的回归结果可以与原回归结果比较,作为一种形式的稳健性检验。

这里有两点需要注意:
(1)两步估计法中第二步回归代入的是第一步回归的结果,因此第一步回归的估计误差也将被代入第二步,造成效率损失,最终导致第二步估计系数的标准误存在偏差,影响p值进而影响系数显著性。

解决方法有两种

一是对第二步回归的标准误进行校正处理,但标准误的校正方法相对复杂,因此现阶段采用这种解决方案的文献几乎没有;

二是使用极大似然估计(Maximum Likelihood Estimate,MLE),直接对两阶段回归进行整体估计,这种方法在实际应用中使用较多,但存在的问题在于如果样本量太大,计算会非常耗时。因此,考虑到操作的简便性、理解的直观性以及对分布的假设更为宽松,目前国内流行使用的还是两步估计法。

(2)第二步回归使用的样本数目少于第一步。假设所有的解释变量(包括第一步的外生变量)都没有缺失值,仅被解释变量y存在缺失值,那么第一步回归中使用的样本数目是全样本,因为第一步选择方程的被解释变量y_dummy设置为当y取值不为空(包括y取值为0)时y_dummy等于1,y取值为空时y_dummy等于0,故所有样本的y_dummy都有取值,因此都参与了第一步回归。而第二步回归中的被解释变量y存在缺失值,存在缺失值的样本在参与回归时将直接被剔除。因此第二步回归使用的样本数目少于第一步,这也是样本选择模型一个最直观的特征。

stata实现规范命令

相关命令:
heckman y x1 x2 x3, select (x1 x2 z1)  (默认使用MLE(最大似然估计),选择方程的被解释变量为y)
heckman y x1 x2 x3, select (x1 x2 z1) twostep mills(newname) (两步法,选择方程的被解释变量为y)
其中,select( )表示写入选择方程,x1 x2为控制变量,z1为外生变量;twostep表示使用两步估计法,默认使用MLE;mills( )表示生成各样本的imr,并以newname作为变量名。


注:MLE估计时被解释变量有值取1,没有为missing

replace lnpat=. if lnpat==0
heckman lnpat lnrobot $x, select(lnrobot $x length L.lnrobot lnrobot_ins) twostep



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-10-30 11:52:39
webuse womenwk.dta, clear    //调用数据
sum age educ married children wage    //描述性统计数据
reg wage educ age    //简单的模型
est store OLS
*第一种方法 :heckman maximum likelihood
heckman wage educ age, select(married children educ age)   //默认最大似然估计
est store HeckMLE
*第二种方法  heckman two-step  all-in-one(一步回归)
heckman wage educ age, select(married children educ age) twostep
est store Heck2s
*第二种方法  heckman two-step  step-by-step (分步回归)
probit work married children educ age
est store First
predict y_hat, xb   //计算拟合值
gen pdf = normalden(y_hat)   //概率密度函数
gen cdf = normal(y_hat)      //累积分布函数
gen imr = pdf/cdf            //计算逆米尔斯比率
reg  wage educ age imr if work == 1  //女性工作子样本
est store Second
vif    //方差膨胀因子
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群