Treatment effect model 主要针对解释变量中包含 0/1 虚拟变量的类型。这通常都源于自选择问题。例如,研究上北大是否有助于提高收入这个问题,上北大与否就是一个虚拟变量 Dum_PK。但问题在于,能上北大的学生本身就是好学生,这些人有较强的能力,即使不上北大,收入仍然可能高于其他同学。此时 Dum_PK 便是一个内生变量。具体而言,模型设定如下:
Income = a + b1*Control_Variables + b2*Dum_PK + e
在这个模型设定中,干扰项 e 中可能会包括一些无法观测的因素,如“能力”。显然,能力与 Dum_PK 是相关的,也就是说,在上述模型设定中,Corr(Dum_PK, e) != 0,即所谓的内生性问题。
此时便需要采用 Treatment effect model,基本思想是找到合适的工具变量。stata 命令为 treatreg。
PSM 也可以解决这里提到的内生性问题。基本思路是,找到一些与北大学生各方面特征都相似但没有上北大的同学(他们的能力应该与北大学生相似),用他们的收入来衡量北大学生如果不上北大时的收入。两组人的主要差别仅限于是否上了北大,其他特征相似。
DID 要处理的问题更复杂一些。涉及到时间因素与 Treat 效应的分离问题。例如,广州 2009 年开始限房价,我们想在 2011 年的时候评估限价的效果。然而,在 2009-2011 年期间,假设广州的均价从 15000 涨到了 20000,但二者相差的 5000 块并不能完全归因为限价,因为随着时间的推移,经济在增长,这本身就会促使房价上涨。问题的核心就在于,如何把经济增长导致的房价变化,与限价政策导致的房价变化分离开。
此时可以采用 DID,基本想法是找到一个没有被限价,但各方面特征于广洲相似的城市,用这个城市的房价变动衡量广州房价随时间自然增长的部分,剩下的部分可以归结为限价政策的效果。
但是,想找到一个与广州相似的配对城市并不容易,此时可以采用 PSM。因此,PSM 往往可以与 DID 联合使用。
DID 的基本思想图示如下:
*------------------------- ---------
* Group | Pre Post Change
*------------------------- ---------
* Treat | Y0 Y1 (Y1-Y0) 时间效应+处理效应
* -
* Control | C0 C1 (C1-C0) 时间效应+0
*------------------------- ---------
*
* D-in-D (Y1-Y0)-(C1-C0) 处理效应