SPSS案例之《倾向得分匹配在实际中的应用》
简介:
倾向评分匹配(Propensity Score Matching,简称PSM)是一种统计学方法,用于处理观察研究的数据。在观察研究中,由于种种原因,数据偏差和混杂变量较多,倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响,以便对实验组和对照组进行更合理的比较。
这种方法最早由Paul Rosenbaum和Donald Rubin在1983年提出,一般常用于医学、公共卫生、经济学等领域。
以公共卫生学为例,假设研究问题是吸烟对于大众健康的影响,研究人员常常得到的数据是观察研究数据,而不是随机对照实验数据(Randomized Controlled Trial data),因为吸烟者的行为和结果,以及不吸烟者的行为和结果,是很容易观察到的。这种情况下观察研究是最合适的研究方法。但是面对最容易获得的观察研究数据,如果不加调整,很容易获得错误的结论,比如拿吸烟组健康状况最好的一些人和不吸烟组健康状况最不好的一些人作对比,得出吸烟对于健康并无负面影响的结论。从统计学角度分析原因,这是因为观察研究并未采用随机分组的方法,无法基于大数定理的作用,在实验组和对照组之间削弱混杂变量的影响,很容易产生系统性的偏差。倾向评分匹配就是用来解决这个问题,消除组别之间的干扰因素。
步骤:
1计算倾向值(采用logistic回归)
2进行得分匹配
得分匹配的几种方法:
(1)最邻近匹配
(2)半径匹配(Radius matching)
(3)核匹配(Kernel Matching
3评定匹配后的平衡性
4计算平均干预效果(ATT
5进行敏感性分析
适用情形:
第一,在观察研究中,对照组与实验组中可直接比较的个体数量很少。在这种情形下,实验组和对照组的交集很小,比如治疗组健康状况最好的10%人群与非治疗组健康状况最差的10%人群是相似的,如果将这两个重合的子集进行比较,就会得出非常偏倚的结论。
第二,由于衡量个体特征的参数很多,所以想从对照组中选出一个跟实验组在各项参数上都相同或相近的子集作对比变得非常困难。在一般的匹配方法中,我们只需要控制一两个变量(如年龄、性别等)即可,就可以很容易从对照组中选出一个拥有相同特征的子集,以便与实验组进行对比。但是在某型情形下,衡量个体特征的变量会非常多,这时想选出一个理想的子集变得非常困难。经常出现的情形是,控制了某些变量,但是在其他变量上差异很大,以至于无法将实验组和对照组进行比较。
直播时间:
2019年1月10日19:30--20:30
直播内容:
1、倾向得分匹配的应用背景,
2、倾向得分匹配的原理,
3、倾向得分匹配的软件操作,
4、分析结果解读
直播讲师:
钱兵
中国电信北京研究院大数据产品线产品总监,CDA二级数学建模师
工作经历:3年传统市场研究+3年大数据研究+8年统计培训。现从事大数据领域数据分析和产品研发等工作,主要覆盖消费者购买路径、商业地理洞察、广告效果评估等研究。
直播方式:
扫描下方二维码,即可预约直播。
我在1月10日等你,不见不散!