立即打开
首先,我们来看下SD如何计算?
- 计算每个值与样本平均值之间差值的平方;
- 将这些值相加;
- 将总和除以N - 1。将其称为方差;
- 开平方根,获得标准偏差;
上面这个是一套基本的计算方式,接下来我们逐一看看你可能会有的一些疑惑。
Q1 “为什么是 n - 1?”
为什么在上述第三步中除以n - 1(而非N)?在第1步中,计算每个值和这些值的平均值之差。你不知道群体的实际平均值,只知道样本的平均值。除样本平均值恰好等于群体平均值的罕见情况外,数据将更接近样本平均值,而非实际群体平均值。因此,你在第2步中计算的值可能会比在第1步中使用实际群体平均值时的值小一点(且无法更大)。为弥补这一不足,我们除以n - 1而非n。
但是,为什么使用n - 1?如果你知道样本平均值,以及除了一个值之外的所有值,则可以计算最后一个值必须是什么。统计学家们称存在n - 1 自由度。
Q2 “但我看到方程的分母中是n,而非n - 1啊?”
n - 1方程用于分析数据样本,并希望得到更接近一般结论的常见情况。以此方式计算的SD(分母中为n - 1)是你对总群体SD值的最佳猜测。
如果你只是想要量化一组特定数据的变化,而不打算外推以得到更广泛的结论,则在分母中使用N计算SD。由此产生的SD是这些特定值的SD,但很可能低估这些数值点提取群体的SD。
科学的目标始终是普遍化,因此在分析科学数据时,不应在方程的分母中使用n。我能想到的唯一一个在分母中使用n(而非n - 1)可能有意义的示例是量化检测评分之间的差异。但更好的方法是显示每个评分的散点图,或者频率分布直方图。
Prism始终使用n - 1计算SD。
Q3 "计算SD需要多少个值?"
SD量化的是离散度,所以只有一个值是不行的。那么两个值够不够呢?很多人认为只有两个值也是无法计算SD的。其实不然,当你只有重复(n = 2)的数据时,也是可以正常计算SD方程的。
大家所关心的是,这样的结果是否真的有效?
我们可以用模拟计算来回答这个问题。我们模拟一万个n = 2的数据集,并且每个数据点均从高斯分布中随机选取。由于所有统计检验实际上均以方差(SD的平方)为基础,因此我比较了根据重复数据计算的方差和真正方差。模拟数据的10,000个方差的平均值与模拟数据来源真正方差的差异不超过1%。这意味着根据重复数据计算的SD是对数据离散度的有效评估。其同样可能过高或过低,但也可能距离真SD非常远。
Q4 “如何使用Excel计算SD?”
Excel可以使用STDEV()函数,根据一系列值计算SD。例如,如果你想知道单元格B1 - B10中值的SD,则在Excel中使用以下公式:
= STDEV(B1:B10)
该函数在分母中使用n - 1,计算SD。如果你想在分母中使用N以计算SD(见上文),则使用Excel的STDEVP()函数。
Q5 “SE和SEM是一回事儿吗?”
不是一回事儿!
标准偏差(SD)与平均值标准误差(SEM)之间的差值很容易混淆。主要差异在于:
- SD量化了分散 - 值之间的差值有多大;
- SEM量化了你对总体实际平均值的了解程度。其考虑了SD的值和样本量;
- SD和SEM均在相同单位内--数据的单位;
- 根据定义,SEM始终小于SD;
- 随着你的样本变大,SEM变小。这有意义,因为大样本的平均值可能比小样本的平均值更接近真实的总体平均值。在一个巨大样本的情况下,即使数据非常分散,但你也能非常精确地知道平均值的值;
- 随着你获得更多的数据,SD不会发生可预测的变化。你从样本中计算出的SD是对总体SD的最佳估计。随着你收集更多的数据,你将更精确地评估总体的SD。但你不能预测来自大样本的SD是否会大于或小于来自小样本的SD。(严格来说,这并不正确。其为方差--SD平方--不会发生可预测的变化,但SD的变化微不足道,且比SEM中的变化小得多)
注意:对于你几乎可根据数据计算出任何参数,你可计算标准误差,而不仅仅是平均值。“标准误差”一词有些许模棱两可。上述各点仅指平均值的标准误差。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群