在使用`ivreg`命令时,被解释变量(即y)确实可以是虚拟变量。这在计量经济学中并不罕见,尤其是当您感兴趣的结果是一个二元选择或事件发生与否的情况。
对于你提到的差异问题,一部分原因可能是由于分阶段回归与两步法估计过程中的处理方式不同导致的。`ivreg`命令进行的是联合估计(即一次性估计所有系数),考虑到工具变量的有效性,并且能正确地调整标准误来反映第一阶段和第二阶段之间的相互依赖。
在你的情况下:
1. 第一阶段:使用`reg x1 w1 x2; predict x1_hat`。这一步是正确的,通过回归x1对w1(及其控制变量)得到的拟合值(即预测值),可以理解为消除内生性的“纯净”x1。
2. 第二阶段:使用`logistic y x1_hat x2`进行Probit或Logit回归。这一步骤在理论上是可行的,但要注意的是,“直接将第一阶段得到的拟合值放入第二阶段模型中”,实际上忽略了第一阶段估计中的不确定性。这意味着标准误可能被低估。
而`ivreg`则通过两步法(或者更高级的方法如GMM)同时考虑了这些不确定性,并且得到了一个更加稳健的估计结果,这包括正确的标准误和置信区间,因此R-squared或Pseudo R-squared等模型拟合度指标也会不同。在Probit或Logit回归中通常报告的是pseudo-R-squared,而不是传统的R-squared。
解决这个问题的一个可能方法是使用`ivreg2`命令(Stata中的一个增强版IV估计命令),它能够提供更详细的统计信息,并允许对工具变量的有效性进行更强的检验。如果是在其他统计软件或编程环境中,寻找与之类似的命令或函数会很有帮助。
总之,在实际应用中,直接比较使用`ivreg`和分阶段回归得到的结果差异较大是很常见的现象,这主要是由于估计过程中的方法论区别所致。在选择合适的方法时,要考虑到研究的具体目的、数据的特性以及模型假设的有效性等因素。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用