全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7106 3
2018-04-04
在R语言自带的datasets包中,有个数据集叫UCBAdmissions,这个数据集咋一看其貌不扬,再一看还是平平淡淡,其实,这个数据是揭示Simpson's Paradox的典型真实案例。本帖为了简化问题的说明,选取其中的一部分:
复制代码
数据大概是这样子的:
AdmitGenderDeptFreq
AdmittedMale    A       512     
RejectedMale    A       313     
AdmittedFemale  A       89     
RejectedFemale  A       19     
AdmittedMale    D       138     
RejectedMale    D       279     
AdmittedFemale  D       131     
RejectedFemale  D       244     

数据的内容是不同性别(Gender)的人申请不同的系(Dept),获得同意或拒绝(Admit)的次数(Freq)。
将数据汇总后,可以形成下面的图(制图比较简单,不赘述了):
001.png
从图上可以看到,男性(Male)的录取(Admitted)率,比女性要高。对吧?没错吧?但是——如果我们将这两个系各种申请的男女通过率展现出来:
002.png
WTF?!每一个系都是女生的录取率高于男生的录取率,但是为什么数据合在一起,就出现截然相反的结论呢?
为了展示问题,我们换一种方法画图:
003.png
在这张图中,横坐标变成了被拒绝的频次(Freq),纵坐标变成了申请成功的频次,图上的点对应男(粉色)、女(青色)申请某个系,和汇总的情况,每个点到原点(0,0)的线段的斜率表示(申请成功/申请失败)的比率,代表了成功率的高低。
从上图可以看到,青色的两条实线都比红色的两条实线的斜率要大,但是,当数据汇总后,青色的虚线的斜率却要比红色虚线的要小!这就是Simpson's Paradox的具体展现。从图上,我们大致可以看出原因——左边第一条青色实线的长度太短了!这可能是导致问题发生的原因。
如果其他条件不变,但是左边第一条青色实线的长度增加到3倍,情况会怎么样呢?——
004.png
OK,确实如此,情况逆转了!我们可以用公式粗糙地验证一下:
005.png

这提醒了我们一个道理,当我们在进行比率相关的数据分析时,不仅要考虑总体和各子项目的比率情况,还要考虑另外一个维度——各子项目所占权重的情况,因此,对于类似的问题,我在最上面用到的“条形图”就不合适了,这种情况下应该用“马赛克图”用ggmosaic包:
复制代码
006.png
从上面这张图上,Simpson's Paradox想要“骗”我们就没有那么容易了!

好了!我们已经知道了,比率很总要,权重也很重要。那么?问题又来了,如果在一个概率可知且稳定的投资过程中,策略A会稳定的输钱,策略B也会稳定地输钱(相当于比率已知)。如果将策略A、B随机组合或者间隔组合在一起(权重各50%),这个策略一定是稳定输钱吗?——答案还是不一定,有可能会稳定地赚钱!WTF?!是的,这就是Parrondo’s Paradox,有机会我再发帖说明。

另:对概率统计的经典问题感兴趣的坛友,可以看看我发过的另外一个帖子:用R语言实验验证经典概率问题:The Monty Hall problem
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-4-4 15:15:39
版主威武!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-6 21:54:12
cheetahfly 发表于 2018-4-4 13:46
在R语言自带的datasets包中,有个数据集叫UCBAdmissions,这个数据集咋一看其貌不扬,再一看还是平平淡淡, ...
好的好的好的好的好的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-10-20 13:56:31
最下面的代码放在R里出不来马赛克图呀
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群