暗香疏影_ 发表于 2022-5-18 17:32 
您好,冒昧打扰,还请您海涵,按照您上次的指点,断点回归模型可以成功跑出来结果,还是好奇的模仿上次那 ...
是这样哈,断点回归首先要求你处理变量的条件均值在断点附近要出现跳跃,不能说看起来感觉被解释变量在断点附近有点跳跃就用断点回归了。(处理变量的条件均值这个通俗点说你可以看作把有无VC投资做为被解释变量(有取1,无取0),用rdplot画图后,那些散点的取值)
有一点要提醒你的是,rdplot画出来的并不是散点图,严格来说应叫分仓散点图,具体做法就是把横轴划分成n个区间(就是你设置的nbins数值),然后对每个区间内的被解释变量取平均数,然后画在图上。图上的一个点其实是一堆观测值的均值,所以有些时候你在图形上能看出一点跳跃实际上可能只是因为你nbins设置的数太小了。你可以说这是分仓散点的一个缺陷吧,但是在观测值非常多的时候如果直接画普通散点图的话大概率画出来的就是一个切开的火龙果,散点太多根本啥也看不出来。
再一个是判断是否存在跳跃不能只看拟合线,还要看断点两侧的置信区间有没有重合部分。因为rdplot本来就是用两侧观测分别拟合,单看拟合线的话肯定都会在断点处有点不连续。
最后也是你想用的这个方式最主要的一个问题,还是之前说的,拿PSM得分做驱动变量本身就是错误的做法,因为无法解释为什么处理变量的条件均值在断点附近有跳跃,而且连断点的具体取值都根本无法确定。断点的取值是要有现实基础的,像退休年龄、地理分界等等。不能说我看图感觉在这有点跳跃就用断点回归了。
不知你是想拿这个做毕业论文么,要是答辩老师不懂断点回归还好,碰到懂的老师基本肯定会被怼很惨。