对数正态分布在生物学中十分常见,但在统计学书籍中却很少见。
对数正态分布
对数正态分布的核心要点
- 高斯分布的变异源于多个分散来源的叠加(下方详解);而对数正态分布的变异则源于多个分散来源的相乘作用
- 对数正态分布的所有取值均为正数,不存在负值或零值
- 对数正态分布在生物学中十分常见
- 当几何标准差较大时,对数正态分布呈不对称性:多数取值非常接近,仅有小部分取值显著偏大(可参考下方图形的左面板)
[size=14.6667px]
- 当几何标准差较小时(例如小于1.3),除非样本量极大,否则不对称性很难被察觉
- 若将数据绘制在对数坐标轴上(如上方图形的右面板所示),分布会呈现对称性
- 若不了解对数正态分布,您可能会误以为示例中最大的4个值是离群值(看起来不属于整体分布)。若用基于高斯分布假设的离群值检测算法分析这些数据,大概率会识别出这些值(即示例中最大的4个值)为离群值
- 若尝试用t检验或ANOVA比较均值,可能会得到较大的P值与较宽的置信区间。t检验与ANOVA均假设数据来自高斯分布,若用这些方法分析对数正态分布的数据集,会损失统计功效
- 对数正态分布所有取值的对数值服从高斯分布
[size=14.6667px]
如何处理对数正态分布
分析对数正态分布的数据很简单:只需对每个数值取对数进行数据转换。这些对数值应服从高斯分布,因此可通过t检验、ANOVA等方法进行分析。从10.5版本开始,Prism提供了对数正态版本的t检验与单因素ANOVA:勾选“假设数据来自对数正态分布”的选项后,这些检验会比较几何均数,并计算几何均数的比值(而非算术均数的差值)。
深入了解对数正态分布
参考文献:HJ Motulsky, T Head, PBS Clarke, 2025,《分析对数正态数据:非数学实用指南》,《药理学综述》,第77卷,第3期,100049
(高斯分布的来源)
当多个独立随机因素以叠加方式共同作用产生变异时,就会形成高斯分布。我们可以通过一个例子来理解这一点。
想象一个非常简单的“实验”:您用移液管移取一些水并称重。移液管本应移取10微升水,但实际移取量会随机波动在9.5到10.5微升之间。如果您移取1000次,并将结果绘制成频率分布直方图,它会呈现出下图的样子。
此时平均重量为10毫克(对应10微升水的重量,至少在地球上是这样)。这个分布是平的,完全没有高斯分布的特征。
现在我们把实验变复杂一点:移取两次水后再称重。此时平均重量会是20毫克,但误差有时会相互抵消。下图展示了这样操作后的结果。
每一步移液操作都会产生平展型随机误差,但将这些误差叠加后,分布就不再是平展的了。例如,只有当两次移液的误差都大幅偏向同一方向(这种情况很少见)时,才会得到接近21毫克的重量。
现在我们把实验扩展到10次移液操作,观察总和的分布。
这个分布看起来非常接近理想的高斯分布。如果将实验重复15000次(而非1000次),结果会更接近高斯分布。
这个模拟验证了一个可通过数学证明的原理:若实验误差由多个权重相近的叠加性来源构成,且样本量足够大,那么数据的离散性会近似服从高斯分布。
高斯分布是一种数学理想模型。生物领域中几乎没有(若有的话也极少)分布完全符合高斯分布,因为高斯分布的取值范围是从负无穷到正无穷。比如上面的重量实验,若严格服从高斯分布,就会存在极小概率出现负重量(但重量不可能为负),因此实际分布不可能是完美的高斯分布。不过,它与高斯分布的近似程度已经足够高,足以支持t检验、回归等基于高斯分布假设的统计方法的使用。
几何均数与几何标准差系数
几何均数的核心要点
- Prism计算几何均数的步骤:先对所有数值取对数,计算对数值的均数,最后取反对数
- Prism使用10为底的常用对数,再将对数值的均数作为指数求10的幂,得到几何均数;部分程序会使用自然对数,再通过指数函数转换回原尺度
- 对数与反对数的运算,等价于将所有数值相乘后开n次方(n为数值个数),部分书籍会采用这一定义
- 若数据中存在0或负值,无法计算几何均数
- 几何均数的单位与原始数据、算术均数的单位一致
- 几何均数永远不会大于算术均数
- 若数据来自对数正态分布,几何均数通常是描述分布中心的最佳方式
[size=14.6667px]
几何标准差系数
Prism在计算几何均数时,会同时报告几何标准差系数,也可在部分图形中绘制几何均数及其几何标准差系数。
几何标准差系数的核心要点
- “几何标准差”这一术语并不常用,由Kirkwood首次提出
- 几何标准差的计算方式:先将所有数值转换为对数,计算这些对数值的样本标准差,再对该标准差取反对数
- 几何标准差系数无单位,是一个无量纲的比值,且其值≥1(仅当所有数据完全相同时才等于1,此时数据对数值的标准差为0,而0的反对数是1)
- 不能将几何标准差与几何均数进行加减运算,只能进行乘除运算。这与普通标准差不同(普通标准差与数据单位一致,可与均数加减)
- 对于对数正态分布的数据,几何均数÷几何标准差系数到几何均数×几何标准差系数的区间,约包含三分之二的数值;类似地,高斯分布数据中,均数±标准差的区间也包含约三分之二的数值
- 学术出版物中很少报告几何标准差:常见表述是“均数为3.2±1.2(标准差)”,但目前很少见“几何均数为4.3(×/÷1.14)”的写法(这里用“×/÷”代替了“±”符号)
- 虽然用“乘/除”表示误差看似奇怪,但其实和“加/减”一样合理
[size=14.6667px]
示例
上图绘制了从对数正态分布中抽样得到的20个数值:
左侧图表显示,均值与几何均值差异明显;
中间图表展示了几何均值,其误差棒的计算方式为几何均值乘以或除以几何标准差因子;
右侧图表则采用对数Y轴呈现相同数据:此时分布看起来是对称的,误差棒向两侧延伸的距离(视觉上)一致。但需注意:中间图与右图中误差棒的端点对应的Y值是相同的,右图采用了对数坐标轴。