“人都相信[高斯分布]:试验者,因为他们认为数学和数学家可对其进行证明;因为他们相信它是通过观察确立的。”
W. Lippmann
高斯分布的重要性
统计检验可以分析一组特定数据,以得出更普遍的结论。目前有数种方法可以做到这一点,但最常见的方法是基于“群体中数据有特定分布”的假设。目前最常用的分布是钟形高斯分布(又称“正态分布”)。该假设是许多统计检验(例如,t检验和方差分析,以及线性和非线性回归)的基础。
在阅读其他关于高斯分布的书籍时,两个统计术语可能会令人困惑,因为听起来像普通的词:
- 在统计学中,术语“正态”是高斯钟形分布的另一名称。当然,在其他情况下,“正态”的含义大为不同(无疾病或常见)。
- 统计学家将线或曲线周围点的分散称为“误差”。该词的用法与通常用法不同。在统计学中,术语“误差”仅指偏离平均值。通常将这种偏离视为由于生物变异性或实验不精确所导致,而非错误(通常使用术语“误差”)。
高斯分布的起源
当许多独立随机因素以相加方式产生变异时,会出现高斯分布。这最好通过一个示例来理解。
想象一个非常简单的“实验”。您使用移液器,取一些水并称重。您的移液器应该可以吸取10微升水,但实际上可以随机吸取9.5-10.5微升水。如果您吸取一千次,并创建一个结果的频率分布直方图,它将如下图所示。
平均重量10毫克,相当于10微升水的重量(至少在地球上如此)。分布平坦,无高斯分布迹象。
现在,我们让实验变得更复杂。我们使用移液管吸取两次,然后称量结果。平均而言,现在的重量是20毫克。但您会期望这些误差在某些时候抵消。结果如下图所示。
每个移液步骤均有一个平坦的随机误差。将它们相加后,分布变得不平坦。例如,仅当两个移液步骤基本上朝同一方向出错时,才能获得接近21毫克的重量,这种情况很少见。
现在让我们将该实验扩展到十个移液步骤,观察下总数的分布情况。
该分布看起来很像理想的高斯分布。重复实验15,000次,而非1,000次,会更接近高斯分布。
该模拟演示了一个可以通过数学方法证明的原理。如果您的实验散点有许多来源是相加的和几乎相等的权重,且样本量很大,则散点将近似为高斯分布。
高斯分布是一种理想的数学分布。很少有生物分布(如有)真正服从高斯分布。高斯分布从负无穷大扩展到正无穷大。如果以上示例中的权重真正服从高斯分布,则权重可能为负值(但可能性极低)。由于权重可能是负值,分布不能完全服从高斯分布,但它非常接近高斯分布,因此可使用假设高斯分布的统计方法(例如,t检验和回归)。
统计学的中心极限定理
高斯分布在统计学中起着核心作用,因为它包含一种称为“中心极限定理”的数学关系。如需理解该定理,应遵循该理想试验:
- 创建一个已知分布群体(不必为高斯分布)。
- 从群体中随机挑选许多相同大小的样本。将这些样本平均值制成表格。
- 绘制平均值频率分布的直方图。
中心极限定理表明,如果样本足够大,即使群体不服从高斯分布,平均值的分布也会服从高斯分布。由于大多数统计检验(如t检验和方差分析)只关注平均值之间的差异,中心极限定理让这些检验即使在群体不服从高斯分布的情况下也能很好地工作。为确保有效,样本量必须足够大。到底多大?这取决于群体分布与高斯分布的不同程度。假设群体的分布并非十分不寻常,样本量为10通常就足以使中心极限定理成立。