全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2246 0
2020-08-06
误导图第1部分:避免这些常见错误
互联网上到处都是误导性图表。有时,它们故意有误导性,而有时候创建图形的人却不能完全理解他们所呈现的数据。具有误导性的图的“经典”情况包括遗漏数据,未正确标记数据或在垂直轴上跳过数字。
在最近的《福布斯》文章中,我遇到了以下令人误解的图形。该图的数据来自剑桥大学温顿大学风险公共理解教授,MRC生物统计单位的资深科学家戴维·斯皮格哈尔特爵士(Sir David Spiegelhalter )教授的数据。  乍一看,源自于斯皮格哈特爵士等著名科学家的图表似乎几乎不值得包含在题为“误导图”的文章中,但是您能发现问题所在吗?
尽管我是一名贸易统计学家,但多年来我一直对误导性图表和统计感兴趣。因此,当我看这样的图形时,我的第一次扫描是用有些挑剔的眼睛,或者是“外行会怎么想?” 忘了片刻,您是数据科学家,统计学家还是亲信人士。想象一下,您只是一个普通的Joe,对统计数据有基本的了解,然后再看一下图表。
我注意到这张图的第一件事与冠状病毒无关,而是每年有10%的死亡几率(对于八角质人)。我父亲今年88岁,根据这张图表,他有90%的机率将其提高到89。如果他达到89,则有90%的机率使其达到90。活到100岁?几率有所提高(可能达到18%或19%,但这还算不错)。实际上,这听起来很不错,他将赔率提高到120,对吧?如果他是幸运的人之一,那么大概有130岁,他有大约80-90%的机会可以全年成功。这张图片显然有问题,但是那又是什么呢?
问题1:垂直图上缺少数字
该图存在三个主要问题。第一个是导致图形误导的最常见问题之一:在垂直轴上跳过数字。
我在Medium.com上找到了该图的另一个版本。 等一下我;我知道Medium.com没有福布斯的威望,但是在这种情况下,他们的图表更具参考价值,因为它没有截断的垂直轴。请注意,黄色圆圈清楚地表明从10%跃升至50%。《福布斯》文章中缺少这部分轴。
现在,此版本的图形更有意义。请注意,在85岁左右以后,死亡的几率会大大增加。实际上,每年的几??率上升到50%左右。您的预期寿命是否达到105?再过1.5年(伯克利)。
问题2:混淆邮件
导致误导图的另一个问题更加微妙。有时,过度的热情会导致您将过多的信息打包到图表中,使您试图传达的信息变得混乱。图形的福布斯版本遭受此问题。该图清楚地标有“ 正常男性死亡率 ”和“ 正常女性死亡率 ”。实际上,图表中的这些部分与“ 冠状病毒感染后死亡的风险 ”具有同等的权重“。因此,权重相等给人的印象是该图不仅是关于冠状病毒的信息,而且还是有关死亡率的一般信息。将其与Medium.com图进行比较。“正常”死亡率被贬低为两个词(男性/女性),让观看者更清楚地了解图表的真正含义:Covid-19的死亡率。
问题3:对数
图形的第二个问题是比例的选择。图#1底部的小字表明它处于对数刻度。当然,科学家对数刻度可能是精通的,但公众却不是:即使大学生也在对数的神秘本质中挣扎(Mulqueeny,2012)。第二张图远非完美,因为它根本没有提到标度的对数性质,这是您要避免的另一张图问题:始终报告您正在使用的标度(特别是在比较深奥的情况下尤其重要)之一!)。
解决方案?
数据科学家的工作之一是理解大量数据,并以易于理解的格式将数据呈现给同事,公众和其他“非技术”受众。您的听众依赖您明智地选择,从而生成易于阅读和理解的准确图表。因此,生成对于外行来说可以理解的图形对于您而言至关重要。为了节省空间,不要犯错修剪边缘的错误(如本《福布斯》文章所述)。使用简单的百分比而不是对数。并熟悉常见的误导性图表类型,以免给听众带来痛苦的信息。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群