PSM 之 pre-sorting data？

4697

收藏 2019-10-01

我常常看到许多人在做 PSM 时，都会重新 (随机) sort 资料，例如 (no offense，还有很多其他已发表之期刊文章之 code 也都是如此)：https://bbs.pinggu.org/thread-7349797-1-1.html，其指令类似：

复制代码

其实做这一步并没有比不 sort 资料来的好 (最多一样好)。当然，若有人可以指出我的错误，我也非常乐意聆听。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

飞鸿惊鸿

2019-10-1 15:06:01

做最邻近匹配时，必要

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-1 15:45:45

飞鸿惊鸿发表于 2019-10-1 15:06
做最邻近匹配时，必要

虽然我完全看不出理由 (其实我这个帖子就是特别针对是你讲的"最邻近匹配"而写的)，很愿意听听你的意见 (理由为何)！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

飞鸿惊鸿

2019-10-2 21:08:55

黃河泉发表于 2019-10-1 15:45
虽然我完全看不出理由 (其实我这个帖子就是特别针对是你讲的"最邻近匹配"而写的)，很愿意听听你的意见 (理 ...

在计算倾向得分的时候，一种常见的情况是，控制组中的多个观测的倾向得分完全相同。那么观测的初始排序就会影响最终的结果。对排序进行随机化的目的在于从多个倾向得分相同的候选者中“随机地”进行选择。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-3 07:37:57

飞鸿惊鸿发表于 2019-10-2 21:08
在计算倾向得分的时候，一种常见的情况是，控制组中的多个观测的倾向得分完全相同。那么观测的初始排序就 ...

你讲的理由跟我猜的完全一模一样 (这恐怕是唯一理由，但绝不是要多一步去执行随机 sorting 的理由)。的确，可能在匹配过程中有可能遇到倾向得分完全相同 (虽然我认为机会不高，但这不是重点)，所以如同你所说的，观测的初始排序就会影响最终的结果，我完全赞成。但问题在于原始资料的排序本来就是一随机之实现状况，你再"随机地”排一次，结果就会比原先的排序结果好 (或更有代表性) 吗？答案很明显地是 (要讲三次)：

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2019-10-5 07:34:55

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

黃河泉

2019-10-5 08:10:48

蓝色发表于 2019-10-5 07:34

感谢蓝色版主的资料，我知道很多人这样做 (我也可以找到"国际顶尖期刊"文章中，做 PSM 没有 sorting 的 code 给您看)，我的问题还是 (上面还是没有回答)，重新 sorting (来保证上面的随机性) 的资料真的比 (也是随机实现的) 原始资料来得好吗？我相信这是不可能的事 (若有的话，请告诉我理由)！

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2019-10-5 09:10:30

黃河泉发表于 2019-10-5 08:10
感谢蓝色版主的资料，我知道很多人这样做 (我也可以找到"国际顶尖期刊"文章中，做 PSM 没有 sorting 的 c ...

自己收集的数据一般都是按照一定规则排序的。如微观数据，一般按照省市县乡村户个体排序的，不是随机打乱的。
而且在正式进行匹配以前要清理数据，也会对数据进行一定的排序
不会一上来就直接psmatch

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-5 09:14:08

蓝色发表于 2019-10-5 07:34

请问这中文资料是从哪一本书来的？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2019-10-5 09:21:13

黃河泉发表于 2019-10-5 09:14
请问这中文资料是从哪一本书来的？谢谢！

英文的是：Propensity Score Analysis: Statistical Methods and Applications (Advanced Quantitative Techniques in the Social Sciences) SAGE Publications, Inc; Second Edition： Shenyang Guo (Author), Mark W. Fraser (Author)

中文的是：基本有用的计量经济学赵西亮著

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-5 10:17:44

蓝色发表于 2019-10-5 09:10
自己收集的数据一般都是按照一定规则排序的。如微观数据，一般按照省市县乡村户个体排序的，不是随机打乱 ...

让我举个例来说明，假涉有一治疗观察值 T1 之倾向得分为 0.8，而我们找到对应之控制组有三个观察值 C1, C2, C3 (假设其倾向得分也都为 0.8)，类似

复制代码

最后一列假设是某一变量 x 之值。
若一开始，从母体随机抽样之顺序就是 C1, C2, C3，但如同您所谈的---可能经过个人排序---变成顺序为 C2, C1, C3 (若不 sorting，就选 C2)。现在也如同您之建议，要做 random sorting，变成 (假设为) 顺序 C3, C2, C1 (此时选 C3)。这三个 C1, C2, C3 都是母体随机抽取出来刚好可以与治疗处之 T1 配对的，我就无法理解，为何选择 C3 (或其他随机 sorting 情况，可能是 C1) 就比 C2 好？还是"不小心" 选到 C2 还要重 sorting？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-5 10:18:55

蓝色发表于 2019-10-5 09:21
英文的是：Propensity Score Analysis: Statistical Methods and Applications (Advanced Quantitative T ...

感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2019-10-5 10:49:38

黃河泉发表于 2019-10-5 10:17
让我举个例来说明，假涉有一治疗观察值 T1 之倾向得分为 0.8，而我们找到对应之控制组有三个观察值 C1, C ...

我认为随机性是指从控制组抽取的匹配上的是随机的，。而你不清楚原始数据生成得分的时候，其他变量是不是按照某个变量排序的。你的例子只是一个从3个匹配一个，随机排序可能会有C3对应。但随机排序后，这种可能性就很低

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-5 11:05:47

蓝色发表于 2019-10-5 10:49
我认为随机性是指从控制组抽取的匹配上的是随机的，。而你不清楚原始数据生成得分的时候，其他变量是不是 ...

就如同您说的

复制代码

丞续我的上面的例子，还是老话一句，三个控制组是一样好的 (原先的资料就是这多种排列组合的一种实现情况，从这三个 C1, C2, C3 再做一次的随机抽取的 --- 不管抽到谁 --- 不可能比较好)。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2019-10-5 11:25:43

黃河泉发表于 2019-10-5 11:05
就如同您说的丞续我的上面的例子，还是老话一句，三个控制组是一样好的 (原先的资料就是这多种排列组合的 ...

黄老师：
我觉得有必要问问在匹配方面的权威，看看他们是怎么解释的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-6 08:03:44

蓝色发表于 2019-10-5 11:25
黄老师：
我觉得有必要问问在匹配方面的权威，看看他们是怎么解释的。

这也是一个好方法/方向，我找个时间试试。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-9 07:44:55

我后来问了一下其他人之意见，Clyde 之回应在此：https://www.statalist.org/forums/forum/general-stata-discussion/general/1519335-random-sorting-before-1-1-matching；此外，我也问了 Professor Shenyang Guo (by email，就是上面蓝色版主贴出来的英文书作者)，但我并没有 Guo 老师的同意所以无法公开对话，大致而言 (我尽量公平地说)，他没有反对我的话，但也没特别赞同我的话 (呵呵！)，我再写一封 email 去征求公开对话！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-9 10:30:14

大家也请看看我的最后感想：https://www.zhihu.com/people/river-19-60/activities。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

震震果实

2019-10-9 12:17:06

黄老师，在这个问题上我支持你的看法，我不认为随机排序后结果优于不随机排序，原因也很简单：随机排序之后，结果可能是A，也可能是B，更可能是C，因为匹配的个体可能不同，通俗点来讲就是没有一个确定的值。不排序是排序的一种特殊形式，具有唯一性，在实际工作用比较有用。其实如果适用反复随机排序，结果取均值的方式来处理的话，我觉得结果更具有说服力。所以反复随机排序均值版>原始版>单随机排序。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-9 17:26:36

震震果实发表于 2019-10-9 12:17
黄老师，在这个问题上我支持你的看法，我不认为随机排序后结果优于不随机排序，原因也很简单：随机排序之后 ...

感谢你的支持，你写得很好。但我也愿意再听听不同意见与看法！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-9 17:49:50

震震果实发表于 2019-10-9 12:17
黄老师，在这个问题上我支持你的看法，我不认为随机排序后结果优于不随机排序，原因也很简单：随机排序之后 ...

若您不嫌弃，请加我的微信: Ho-Chuan-Huang。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

震震果实

2019-10-9 18:28:23

黃河泉发表于 2019-10-9 17:49
若您不嫌弃，请加我的微信: Ho-Chuan-Huang。

黄老师谦虚了，加了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

黃河泉

2019-10-13 18:36:29

我写 email 给 Professor Shenyang Guo (就是上面蓝色版主贴出来的英文书作者)，希望征求他的同意来公开我们两的对谈 (by email)，但并未得到回应，所以也不便公开内容！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群