如何用P值撒谎
P值在统计和科学出版物中使用,而在
机器学习应用中则少得多,由于现代的计算能力,P值在当今受到重采样技术的欢迎并且易于实现。从某种意义上说,p值是过去的遗物,当时计算能力受到限制,数学/理论公式受到青睐,并且比冗长的计算更容易处理。
最近,p值受到一些期刊的批评甚至禁止,因为研究人员使用了p值,他们挑剔观察并重复实验,直到获得值得发表的p值来获得赠款,使用权或政治目的。原因。甚至美国统计协会也写了一篇长篇文章,介绍为什么要避免使用p值,以及您应该怎么做:请参见此处。对于数据科学家而言,明显的替代方法包括重采样技术:请参见此处和此处。优点之一是它们独立于模型,由数据驱动且易于理解。
在这里,我们使用简单的模拟数据集(由纯随机,不相关的观察值组成)来解释操纵和背叛的工作方式。使用p值,您可以告诉您有关数据的任何信息,甚至包括要素之间高度相关的事实。数据集包含16个变量和30个观察值,这些数据是使用Excel中的RAND函数生成的。您可以在此处下载电子表格 。
总共有(16 x 15)/ 2 = 120个相关性(每对变量一对),当您一个一个地计算它们时,您早晚会(而不是后来)被发现是有意义的。如果您有16个变量和30个完全随机的观测值,则最极端的相关性几乎总是绝对值大于0.4。从零开始,这是统计上的重大偏离。如果您选择了这种极端的相关性,那么现在您可以判断出我的数据集不是随机的,发生这种高度相关性的机会的确确实为1/120。这个数字(1/120)也是您的p-值(远低于5%),该阈值通常被接受以证明所讨论的效果并非偶然发生。事实是,它确实确实是偶然发生的:您只是在摘樱桃。
该方案的工作方式是选择最符合您议程的极端情况(上图中用红色圆圈圈出),在这种情况下,目标p值应低于1%。
如果您使用这种错误的论点撰写有关Excel的文章,则可以基于此实验声称Excel中的随机数生成器是错误的,并且会生成相关数字。您可以在Python中进行相同的实验并得出相同的结论。或者,您可以使用真正产生随机性的基于硬件的正版设备,但仍得出相同的结论。确实,您可以写一篇有关不存在随机性这一事实的哲学文章。您还可以使用Perl编程语言进行相同的实验,并得出相同的结论。在后一种情况下,有趣的是,您将是正确的:Perl的随机数生成器有一个主要的设计缺陷(它只能产生32
题库