w13623498909 发表于 2018-10-20 18:06
嗯,还想在研究研究
我提供一个第二问的思路,即在危害程度最大(第一问的结论)的五个嫌疑人中,匹配上找不到犯罪人员的案件。仅供参考,也希望提出反对意见。<br>
对于已经发生、但缺少凶手的事件赋值为0,能够找到凶手的事件赋值为1,把这个变量作为y,x就是其他给你的变量了(x务必尽可能多,否则这个原理的假设会不怎么成立...),进行回归以后,估计这个y,会得到一个介于0-1之间的值。这个就是倾向得分,我们把缺少凶手事件的得分,去已经有凶手事件的得分进行匹配。<br>
我解释一下为什么得分接近的越可能有作案嫌疑呢,可以认为凶手被发现只是一个巧合(进入了treat group),而他没有被发现就会缺失(进入了control group),相同or相近得分的事件意味着两个匹配在一起的样本只是随机被分配进入了两个组,但两个作案者其实是同一个人。题目应该是只是从五个嫌疑人里面给排序,我的这种方法其实适合海量的嫌疑人,当然这种情况下结果会不准,题目仅限定五个人里面找反而简单得多了。嫌疑大不大,是否要把一些人排除在外,建议用半径(0.25个倾向得分的标准差)决定,计量思想参见psm模型。