几乎每一种统计检验都会生成一个(或多个)P值。然而,许多科研人员并未真正理解P值的含义。本文将阐释其原理,以及单侧与双侧P值之间的差异。
什么是P值?
假设您收集了两组接受不同药物处理的动物样本的数据。您测量了每只动物血浆中的一种酶,且发现均值存在差异。您想知晓这种差异是否由药物作用导致,即这两个总体的均值是否不同。
仅观察到样本均值不同,并不足以让您判定总体均值存在差异。有可能总体均值其实相同(也就是说,药物对您所测量的酶并无影响),而您观察到的样本均值差异是反映了真实差异,还是仅因随机抽样而产生。您所能做的就是计算概率。
第一步是提出零假设,即处理实际上并不影响您所测量的结果(如此一来,所有差异都源于随机抽样)。
P值是一个概率值,范围在0到1之间,它要回答的问题是(或许您压根儿没想过要问这个问题):在此实验规模下,倘若总体均值确实相同,观察到至少与实际所观察到的样本均值差异一样大的概率是多少?
P值最常见的误读
许多人误解了P值的含义。假设您比较两个均值,得到的P值等于0.03。
该P值的正确定义:
即便两个总体均值完全相同(零假设为真),观察到与您所观察到的差异一样大的差异的概率为3%。
或者
从相同总体中进行随机抽样,在97%的实验中,得到的差异会小于您所观察到的差异;在3%的实验中,得到的差异会大于您所观察到的差异。
错误定义:
您所观察到的差异反映总体间真实差异的概率为97%,差异由偶然因素导致的概率为3%。
对P值的更多误解
Kline(1)列出了关于P值常见的错误观念,在此进行总结:
错误观念1:P值是结果由抽样误差导致的概率
P值是在假定原假设为真的情况下计算得出的。换言之,P值的计算基于“差异是由抽样误差导致”这一假设。因此,P值并非结果由抽样误差导致的概率。
错误观念2:P值是原假设为真的概率
不,P值是在假定原假设为真的情况下计算的,所以它不可能是原假设为真的概率。
错误观念3:1-P是备择假设为真的概率
若P值为0.03,人们很容易这样想:“如果我的差异仅由随机偶然导致的概率只有3%,那么它由真实差异导致的概率肯定有97%”。但这是错误的!
您可以这样说:如果原假设为真,那么97%的实验会得出比您观察到的差异更小的结果,而3%的实验会得出与您观察到的差异一样大或更大的结果。
P值的计算基于“原假设为真”这一假设。P值无法告知您该假设是否正确,它只能告诉您,若原假设为真,观察到与您所得差异一样大或更大差异的情况有多罕见。
科学家必须回答的问题是:结果是否罕见到应舍弃原假设。
错误观念4:1-P是实验重复时结果依然成立的概率
若P值为0.03,人们容易认为这意味着重复实验时有97%的概率得到“相似”结果。但并非如此。
错误观念5:高P值证明原假设为真
不,高P值意味着,若原假设为真,观察到本实验中所见的处理效应并不奇怪,但这并不能证明原假设为真。
错误观念6:P值是拒绝原假设的概率
当某一实验得出的P值小于您(本应在实验设计阶段就确定好的)显著性水平α时,您会拒绝原假设(并认定结果具有统计显著性)。所以,若原假设为真,α是拒绝原假设的概率。
P值和α并不相同。P值是通过每次比较计算得出的,是证据强度的一种度量。显著性水平α是在实验设计阶段一次性确定好的。
1. RB Kline, Beyond Significance Testing: Reforming Data AnalysisMethods in Behavioral Research, 2004, IBSN:1591471184
P值的可重复性如何?(不太好)
P值的可重复性远比您可能预想的要差。
若原假设为真,P值的分布是均匀的。有一半的P值会小于0.50,5%会小于0/05,依此类推。
但要是原假设不成立呢?多数人会预期在这种情况下P值的可重复性还不错。实则不然。
为说明这一点,我们用GraphPad Prism做了些模拟。从两个标准差均为5.0的高斯总体中进行抽样,两个总体的均值相差5.0。以下是四个模拟实验,仅随机抽样这一因素就让四个实验有了差异,四个P值差异显著。
以下是2500次此类模拟实验得到的P值分布情况。X轴表示不同的P值取值,Y轴显示在这2500次模拟实验中,对应取值范围出现的频率。
剔除2.5%最高和最低的P值后,中间95%的P值范围0.0001517至0.6869,跨度超过三个数量级!
在这些模拟实验中,中位数P值约为0.05。我也用更小的标准差(SD)做了模拟,当然会得到更小的P值,但取值范围仍能覆盖三个数量级。
这些模拟的思路源自Boos和Stefanski(1),他们通过对多种情形的模拟表明,重复模拟实验得到的P值在三个数量级以上变化。
Cumming(2)曾提出疑问:若某一特定实验的P值等于0.05,重复实验的P值可能是多少(考虑随机抽样,且假设两次实验均无差错)。结果出人意料(我们认为):重复实验的P值大于0.05的概率为50%;P值大于0.38的概率为20%;P值大于0.82的概率为5%。
1. Boos, D. D. & Stefanski, L. A. P-Value Precision and Reproducibility. The American Statistician65, 213–221 (2011).
2. Cumming, G. Replicationand p Intervals: p Values Predict the Future Only Vaguely, but ConfidenceIntervals Do Much Better. Perspectives on Psychological Science 3,286–300 (2008).
单侧与双侧P值
在比较两组数据时,您必须区分单侧和双侧P值。有些书籍会提到单侧和双侧P值,它们表达的是同一回事。
什么是单侧(检验)?
结合具体情境理解这种区分会最容易。假设您在比较两组的均值(用成组t检验)。单侧和双侧P值均基于相同的原假设,即两个总体实际上是相同的,观察到的样本均值差异是由偶然因素导致的。
双侧P值回答的问题是:
假设原假设为真,随机选取的样本均值出现像本次实验中这样大(或更大)的差异(无论哪一组均值更大)的概率是多少?
要解释单侧P值,您必须在收集任何数据前,就预测哪一组会有更大的均值。单侧P值回答的问题是:
假设原假设为真,随机选取的样本均值出现像本次实验中这样大(或更大)的差异,且是特定组(您预测的组)均值更大的概率是多少?
如果观察到的差异方向与实验假设预测的方向一致,单侧P值是双侧P值的一半(对于大多数,但并非所有统计检验都是如此)。
何时适合使用单侧P值?
当先前的数据、物理限制或常识表明,若存在差异,差异只能朝着一个方向出现时,适合采用单侧检验。只有同时满足以下两个条件,您才应选择单侧P值:
- 在收集任何数据之前,您就预测出了哪一组会有更大的均值(或比例)。要是您是在看到数据后才做的“预测”,那就别考虑用单侧P值了。
- 倘若另一组最终出现了更大的均值——即便大很多——您会把该差异归因为偶然因素,并称这种差异“无统计学显著性”。
[size=14.6667px]
这里有个适合选单侧P值的例子:您在测试一种新抗生素是否会损害肾功能,以血清肌酐作为检测指标。据我们所知,许多抗生素会对肾细胞产生毒性,使肾小球滤过率降低,血清肌酐升高。目前尚未有已知抗生素会降低血清肌酐,而且很难想象有什么机制能让抗生素使血清肌酐升高,或者说它会使总体的平均血清肌酐升高。在收集数据前,您可以说明有两种可能性:要么药物不会改变总体的平均血清肌酐水平,要么它会使总体的平均血清肌酐升高。您认为药物使血清肌酐降低是不可能的,会把观察到的任何降低都归为随机抽样误差。相应地,计算单侧P值是合理的。在这个例子中,双侧P值检验的原假设是药物不会改变肌酐水平,而单侧P值检验的原假设是药物不会使肌酐水平升高。
在单侧和双侧P值之间做选择,关键不是您是否预期会存在差异。要是您已经知道是否存在差异,那就没必要收集数据了。相反,问题在于差异的方向(如果有差异的话)是否只能是一个方向。只有当您能确定地说明(且在收集数据前),在总体中,指定组的差异方向只能是某个特定方向时,才应使用单侧P值。要是您的数据最终显示差异出现在“错误”方向,您得愿意把该差异归为随机抽样误差,根本不考虑测得差异可能反映了总体中真实差异这种情况。要是差异出现在“错误”方向会让您产生兴趣(哪怕只是有一点),您就该计算双侧P值。
GraphPad Prism如何报告单侧P值
当您让Prism报告单侧P值时,它会假定实际的差异或效应朝着您预测的方向出现,因此Prism报告的单侧P值始终小于双侧P值(几乎总是恰好为双侧P值的一半)。
倘若实际上观察到的差异或效应方向与您预测的相反,那么Prism报告的单侧P值就是错误的。实际的单侧P值等于1.0减去报告的单侧P值。例如,如果报告的单侧P值是0.04,而实际差异方向与您预测的相反,那么实际的单侧P值就是0.96。
若收集数据前未预测差异或效应的方向,该如何处理?
要是您在数据收集前没预测效应的方向,就不应该报告单侧P值。事后说“嗯,我本来会预测……”这种做法不恰当。要是您没记录下预测内容,就不该使用单侧P值。
若检验不存在两个方向(该如何处理)?
单侧和双侧P值的概念,仅在假设中效应存在两个方向(郑家或减少)时才有意义。如果您在比较三组或更多组(方差分析),那么单侧和双侧P值的概念就不适用了,Prism也不会让您做这样的选择。
单侧与双侧P值的相互转换方法
若实际效应朝着您预测的方向出现:
- 单侧P值是双侧P值的一半(假设您正确预测了差异方向)。
- 双侧P值是单侧P值的两倍。
[size=14.6667px]
这条规则几乎适用于所有统计检验,且完全成立。有些检验(如Fisher检验)并非对称的,所以这些规则对这类检验仅为近似适用。
若实际效应朝着与您预测相反的方向出现: