倾向得分匹配(PSM)参与匹配的样本太少、pscore分布不均匀怎么解决？

4869

收藏 2023-04-03

请教大家，

我正在做倾向得分匹配(PSM)，匹配之后发现（1） _pscore 分布很不均匀，几乎都分布在 1 附近；（2）_weight 中没有参与匹配的太多太多，一共 3546 个样本，损失了 2249 个。
想问下大家，这个样本损失量是可以接受的吗？
我想找到问题变量，剔除部分样本再去做，不知道可不可以？
以及怎么迅速找到呢？

谢谢大家！

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

lalala是我的

2023-4-20 10:09:58

关于第一个问题，_pscore 分布不均匀的原因可能是匹配变量本身的分布不均匀，导致某些变量的权重较高，进而对 _pscore 的分布产生影响。你可以检查一下匹配变量的分布情况，看是否存在较大的偏离。另外，PSM 本身并不能保证得到的匹配样本的分布具有很好的平衡性，因此可以尝试使用倾向得分子集匹配 (PSM with propensity score subclassification) 或者基于重要性重采样的匹配 (matching with important sampling) 模型，进一步提升结果的平衡性。

关于第二个问题，如果 _weight 中没有参与匹配的样本很多，可能是由于选择的匹配变量不足或者不够精准导致匹配难度较大。如果想找到问题变量，可以尝试通过观察变量在匹配前后的差异来判断其对匹配效果的影响大小。可以使用群组 t 检验或者 Wilcoxon 等非参数检验方法来比较不同变量在匹配前后的分布差异，进而筛选取决于匹配效果的变量。

最后，关于如何迅速找到问题变量，尝试以下方法：

1. 观察匹配前后变量的分布差异。可以通过 Summary Statistics 等工具来查看各个变量在匹配前后的分布变化情况。
2. 调整匹配模型的参数。可以通过调整匹配模型的参数来提高匹配的精度。比如增加匹配变量、调整匹配变量的权重等。
3. 对变量进行分组。将变量在匹配前后的分布进行分组，然后比对组间的差异，来快速定位问题变量。
4. 使用树形结构模型等决策树模型来筛选重要的变量，进而进行变量选择。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群