各位前辈好。因为最近刚学完一些实证方法并开始看paper,有个很基本的问题想请教。我在看一篇使用断点回归的paper(Douglas Almond等 After midnight: A regression discontinuity design in length of postpartum hospital stays). 作者研究午夜12点前后出生的婴儿在住院时长(additional one day or two days)上是否会有差异,而这种差异对健康outcome(再住院率,死亡率)有无影响。
假设断点项是a,住院时长是b,健康outcome是c。
我的疑问在于:1.estimation部分,作者先是b on a估计,系数显著,午夜后出生会住院更久,再c on a,结果不显著,然后再用probit-IV的方法c on b,不显著。我想知道为什么要有c on a 这个估计呢?不是应该用c on b吗? 我有点不懂作者这三步做法的逻辑。我的理解是RDD是一种iv,相当于把断点a当做IV,如果进行c on a的估计,那就相当于是reduced form 的式子,这个式子有什么意义吗?
2. 此外因为97年前后医保政策有变化,所以以上的估计都有分政策前和政策后的panel,请问可以直接看两个panel的系数得出政策前后的结果吗?
附上原文的估计结果