如何用P值撒谎 - 经管之家

879

收藏 2020-11-16

如何用P值撒谎
P值在统计和科学出版物中使用，而在机器学习应用中则少得多，由于现代的计算能力，P值在当今受到重采样技术的欢迎并且易于实现。从某种意义上说，p值是过去的遗物，当时计算能力受到限制，数学/理论公式受到青睐，并且比冗长的计算更容易处理。
最近，p值受到一些期刊的批评甚至禁止，因为研究人员使用了p值，他们挑剔观察并重复实验，直到获得值得发表的p值来获得赠款，使用权或政治目的。原因。甚至美国统计协会也写了一篇长篇文章，介绍为什么要避免使用p值，以及您应该怎么做：请参见此处。对于数据科学家而言，明显的替代方法包括重采样技术：请参见此处和此处。优点之一是它们独立于模型，由数据驱动且易于理解。
在这里，我们使用简单的模拟数据集（由纯随机，不相关的观察值组成）来解释操纵和背叛的工作方式。使用p值，您可以告诉您有关数据的任何信息，甚至包括要素之间高度相关的事实。数据集包含16个变量和30个观察值，这些数据是使用Excel中的RAND函数生成的。您可以在此处下载电子表格。
总共有（16 x 15）/ 2 = 120个相关性（每对变量一对），当您一个一个地计算它们时，您早晚会（而不是后来）被发现是有意义的。如果您有16个变量和30个完全随机的观测值，则最极端的相关性几乎总是绝对值大于0.4。从零开始，这是统计上的重大偏离。如果您选择了这种极端的相关性，那么现在您可以判断出我的数据集不是随机的，发生这种高度相关性的机会的确确实为1/120。这个数字（1/120）也是您的p-值（远低于5％），该阈值通常被接受以证明所讨论的效果并非偶然发生。事实是，它确实确实是偶然发生的：您只是在摘樱桃。
该方案的工作方式是选择最符合您议程的极端情况（上图中用红色圆圈圈出），在这种情况下，目标p值应低于1％。
如果您使用这种错误的论点撰写有关Excel的文章，则可以基于此实验声称Excel中的随机数生成器是错误的，并且会生成相关数字。您可以在Python中进行相同的实验并得出相同的结论。或者，您可以使用真正产生随机性的基于硬件的正版设备，但仍得出相同的结论。确实，您可以写一篇有关不存在随机性这一事实的哲学文章。您还可以使用Perl编程语言进行相同的实验，并得出相同的结论。在后一种情况下，有趣的是，您将是正确的：Perl的随机数生成器有一个主要的设计缺陷（它只能产生32
题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群