几乎每个统计测试都会产生一个(或几个)P值。然而,许多科学家并不真正理解P值是什么。本文解释了它的原理,以及单侧P值和双侧P值之间的区别。
- 什么是P值?
- [url=]对P值最常见的误解
- 更多关于P值的误解
- P值的可重复性如何?(不太好)
- 单侧P值和双侧P值
- 建议:使用双侧P值
- 建议:如何解释一个小的P值
- 建议:如何解释一个大的P值
- P值的十进制格式
- Prism如何从统计比率计算P值
什么是P值?[/url]
假设您收集了两个用不同药物治疗的动物样本的数据。您测量了每只动物血浆中的一种酶,结果是不同的。您想知道这种差异是否是由于药物的影响。
观察不同的样本均值不足以让您得出总体均值不同的结论。总体有可能具有相同的平均值(即,药物对您正在测量的酶没有影响),并且您在样本平均值之间观察到的差异只是偶然发生的。您无法确定您观察到的差异是否反映了真实的差异,或者它只是在随机抽样的过程中发生的。您能做的就是计算概率。
第一步是陈述零假设,即治疗确实不会影响您正在测量的结果(因此所有差异都是由于随机抽样)。
P值是一个概率,取值范围从0到1,它回答了这个问题(您可能从未想过要问这个问题):
在这种规模的实验中,如果总体均值相同,那么样本均值之差大于实际值的概率是多少?
对P值最常见的误解
许多人误解了P值的含义。假设您比较了两个平均值,得到的P值等于0.03。
该P值的正确定义:
即使两个总体均值相同(零假设成立),也有3%的机会观察到与您观察到的一样大的差异。
Or
从相同的群体中随机抽样会导致差异小于您在97%的实验中观察到的,大于您在3%的实验中观察到的。
错误定义:
有97%的可能性,您观察到的差异反映了群体之间的真实差异,有3%的可能性,这种差异是偶然的。
后一种说法是一个常见的错误。如果您很难理解正确和不正确定义之间的区别,我们会在之后推出的’贝叶斯透视关系’中详细讲解。
更多关于P值的误解
Kline(1)列出了关于P值的常见谬论,我总结如下:
(1) RB Kline,基于显著性检验的数据分析方法研究[j] .中国科学:自然科学版,2004,第1期:1 - 4
谬误:P值是结果是由于抽样误差造成的概率
假设零假设成立,计算P值。换句话说,P值是基于假设差异是由于抽样误差而计算的。因此,P值不能告诉您结果是由抽样误差引起的概率。
谬误:P值是零假设成立的概率
不。P值是在零假设成立的情况下计算的,所以P值不可能是零假设成立的概率。
谬误:1-P是另一个假设为真的概率
如果P值是0.03,那么很容易想到:如果只有3%的概率我的差异是由随机机会引起的,那么必然有97%的概率它是由实际差异引起的。但这是错误的!
您可以说,如果零假设成立,那么97%的实验结果会小于您观察到的差异,3%的实验结果会大于或等于您观察到的差异。
P值的计算是基于零假设是正确的假设。P值不能告诉您这个假设是否正确。P值告诉您,如果零假设成立,您观察到的差异大于或大于您观察到的差异有多罕见。
科学家必须回答的问题是,结果是否如此不可能以至于零假设应该被抛弃。
谬误:1-P是重复实验时结果成立的概率
如果P值为0.03,人们很容易认为这意味着在重复实验中有97%的机会得到“相似”的结果。不是这样的。
谬误:高P值证明原假设为真
不。高P值意味着如果原假设成立,那么观察到本实验中看到的治疗效果就不足为奇了。但这并不能证明零假设成立。
谬误:P值是拒绝原假设的概率
当来自特定实验的P值小于显著性水平α(您(应该)将其设置为实验设计的一部分)时,您拒绝原假设(并认为结果具有统计显著性)。如果零假设成立,α是拒绝零假设的概率。
P值与α值不相同。P值从每次比较中计算出来,是对证据强度的度量。显著性水平α设置一次作为实验设计的一部分。
P值的可重复性如何?(不太好) P值的可重复性比您想象的要低得多。 如果原假设成立,则P值的分布是均匀的。一半的P值小于0.50,5%小于0.05,等等。 但如果零假设为假呢?在这种情况下,大多数人认为P值是可重复的。不是这样的。 为了证明这一点,我使用GraphPadPrism进行了一些模拟。我从两个标准差等于5.0的高斯总体中抽样。两个总体平均值相差5.0。这里有四个模拟实验。只有随机抽样将四个实验分开。这四个P值变化很大。
这是2500个模拟实验的P值分布。X轴绘制了P值的各种值。Y轴表示该范围的值在2500个模拟实验中出现的频率。
除去2.5%的最高P值和最低P值,中间95%的P值范围从0.0001517到0.6869 -一个超过三个数量级的范围!
在这些模拟中,P值中位数约为0.05。我还使用较小的SD进行模拟,这当然会导致较小的P值,但范围仍然覆盖超过三个数量级。
这些模拟的想法来自Boos和Stefanski(1),他们通过对许多情况的模拟证明,重复模拟实验的P值变化超过三个数量级。
(1) Boos,D.D.&Stefanski, L.A. P值精度和可重复性。美国统计学家 65,213-221(2011)。
Cumming(2),如果一个特定实验的P值等于0.05,那么重复实验的P值可能是多少(只考虑随机抽样,假设两个实验都没有故障)。令人惊讶的是,结果并不取决于样本量。当然,重复P值大于0.05的概率为50%。但令人惊讶的是(我认为)重复实验的P值有20%的可能性大于0.38,有5%的可能性大于0.82。
(2) Cumming, G. 复制和p区间:p值只能模糊地预测未来,但置信区间做得更好。心理科学透视3,286-300(2008)
单侧P值和双侧P值 在比较两组时,必须区分单侧P值和双侧P值。
单侧是什么意思?
在上下文中最容易理解这种区别。假设您正在比较两组的均值(使用非配对t检验)。单侧P值和双侧P值都基于相同的原假设,即两个总体确实相同,样本均值之间观察到的差异是偶然的。
双侧P值回答了这个问题:
假设零假设成立,随机选择的样本的均值与实验中任意一组的均值相差(或大于)的概率是多少?
要解释单侧P值,必须在收集任何数据之前预测哪一组的平均值更大。单侧P值回答了这个问题:
假设零假设成立,随机选择的样本的平均值与本实验中观察到的平均值相差(或大于)的概率是多少?
如果观察到的差异与实验假设预测的方向一致,则单侧P值是双侧P值的一半(大多数,但不是全部,统计检验)。
什么时候使用单侧P值? 当先前的数据、物理限制或常识告诉您差异(如果有的话)只能在一个方向上时,单侧检验是适用的。只有当以下两种情况都为真时,您才应该选择单侧P值。
- 在收集任何数据之前,您可以预测哪一组的平均值(或比例)更大。如果您只是在看到数据后才做出“预测”,那就不要考虑使用单侧P值。
- 如果另一组最终得到的平均值更大——即使它大得多——您会把这种差异归因于偶然,称这种差异“不具有统计学意义”。
这里有一个例子,您可以适当地选择单侧P值:您正在测试一种新的抗生素是否会损害肾功能,通过血清肌酐来测量。许多抗生素会毒害肾细胞,导致肾小球滤过减少和血清肌酐升高。据我所知,没有抗生素能降低血清肌酐,也很难想象抗生素能提高肾小球滤过率的机制。在收集任何数据之前,您可以声明有两种可能性:要么药物不会改变人群的平均血清肌酐,要么它会增加人群的平均血清肌酐。您认为该药物不可能真正降低人群的平均血清肌酐,并计划将任何观察到的下降归因于随机抽样。因此,计算单侧P值是有意义的。在本例中,双侧P值检验药物不改变肌酐水平的零假设;单侧P值检验药物不增加肌酐水平的零假设。 在单侧P值和双侧P值之间进行选择的问题不是您是否期望存在差异。如果您已经知道是否存在差异,就没有理由收集数据。相反,问题在于差异的方向(如果有的话)是否只能是单向的。只有当您可以确定地(在收集任何数据之前)在总体中没有差异或在特定方向上存在差异时,您才应该使用单侧P值。如果您的数据最终显示了“错误”方向的差异,您应该愿意将这种差异归因于随机抽样,甚至不考虑测量到的差异可能反映了整体族的真实差异。如果“错误”方向的差异会引起您的兴趣(即使是一点点),您应该计算双侧P值。
Prism如何报告单侧P值
当您要求Prism报告单侧P值时,它会假设实际差异或效应与您预测的方向一致,因此Prism报告的单侧P值总是小于(几乎总是,正好是双侧P值的一半)。
事实上,如果观察到的差异或影响与您预测的方向相反,Prism报告的单侧P值是错误的。实际的单侧P值将等于1.0减去报告的P值。例如,如果报告的单侧P值为0.04,而实际差异与您预测的方向相反,则实际的单侧P值为0.96。
如果您在收集数据之前没有预测差异或影响的方向呢?
如果在收集数据之前没有预测效应的方向,就不应该报告单侧P值。说“嗯,我会预测到……”是欺骗。如果您没有记录预测,那么您不应该使用单侧P值。
[url=]如果检验不是两个方向怎么办? 单侧P值和双侧P值的概念只有在效应有两个方向(增加或减少)的假设下才有意义。如果您比较的是三个或更多组(方差分析),那么单侧和双侧P值的概念就没有意义了,Prism也不会要求您做出这样的选择。
如何在单侧P值和双侧P值之间进行转换[/url]
如果实际效应与您预测的方向一致:
- 单侧P值是双侧P值的一半。
- 双侧P值是单侧P值的两倍(假设您正确地预测了差异的方向)。
[size=14.6667px]
这条规则适用于几乎所有的统计检验。有些检验(Fisher检验)是不对称的,所以这些规则对于这些检验只是近似的。
如果实际效应与您预测的相反: