全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1431 0
2020-10-23
匹配MatchIt的精确匹配
正如我当时所指出的,“因果推理的铂金设计是将受试者随机分配到不同治疗组的实验。通过随机化,不受控制或混杂的因素(Z's)的影响应在抽样限制内是“相等的”或在X的各个处理或X值之间达到“平衡”。在这种“受控” Z的设置中,分析人员更有信心X和Y之间的相关性实际上表示因果关系。
但是,在DS世界中通常看到的现场数据收集方案又如何呢?在DS领域中,数据是可观察的,混杂因素可以自由漫游?该怎么办?答案是:考虑因果推断技术,试图从统计学上模拟随机实验。”
在该博客中,我介绍了美国社区调查的数据。数据集构造的详细信息可以在此处找到。  
我想用该数据解决的问题是,如果持有个人拥有终极硕士学位与个人拥有终极本科学士学位,那么任何收入差异会如何?由于我们无法进行将人口随机分配给硕士或学士学位“治疗”的实验,因此考虑使用CI等技术是很有意义的,例如进行匹配,以了解是否可以从中解开教育“治疗”的效果。不受控制的协变量/混杂因素,例如年龄,性别,婚姻状况和种族,在不同的教育群体之间可能有所不同。
我部署的技术是使用倾向模型的结果进行的最近邻匹配,该模型详细说明了“治疗”是否/如何与混杂因素共变。结果表明,如果包括所有有影响力的混杂因素(一个关键的假设),那么两个教育水平之间的收入确实存在着有意义的差异。此外,当应用匹配调整时,收入差异较小,但仍显着。考虑到硕士学位的案例年龄较大且更有可能结婚,因此这种减少是有道理的。这些指标与自己的收入呈正相关。
尽管我对结果非常满意,但对所选技术的计算强度却不太满意。针对超过0.5M个合适的记录中的250
我还发现了哈佛教授加里·金(Gary King)等人对倾向模型驱动的匹配的批评,他是因果推理的开拓者,也是流行的R CI软件包MatchIt的作者。  
结果,我决定进行此分析,以便对整个.5M +数据文件进行“完全匹配”。em是一种更简单且在计算上更有益的技术,它仅涉及类似于SQL的基本争用。事实证明,em可以很好地处理此数据,并在30秒内完成对整个文件的计算。代码和结果在下面详细说明。
分析中使用的技术是具有Microsoft Open R 3.4.4的JupyterLab。为了进行匹配,将部署MatchIt,tableone和data.table程序包。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群