既然要看故事就来一篇《比尔盖茨冲进酒吧》:一天晚上,小镇酒吧里坐着9个人,大家都是小镇上的工薪族,年薪的平均值在5万美元左右。你可以看出50000美元这个平均值,比较准确的体现了9个人的收入水平。正在此时,比尔盖茨急匆匆的走进酒吧,冲向厕所……假如比尔盖茨的年薪是10亿美元,在他上厕所的时间里,另外9个人啥也没做,加上比尔盖茨,10个人的平均年薪平均值一下子从5万爆涨到1亿美元。相比之下,和比尔盖茨相比,9人的年薪太渣,完全看不出高度,像二向箔一样薄。而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近1亿美元。9人抱头哭死在厕所……剧终^_^其实去掉一个干扰项是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。为什么要减去1,这个1代表的是哪个数?
这个减去的1,不特指任何一个数,1代表那个失去“独立客观”的维度(自由度)。
样本标准差的分母写成n-1,是为了对数据进行校正,这叫贝塞尔校正(Bessel's Correction)。 统计经常用各种方法来消除掉干扰数据的影响,例如比尔盖茨和去掉最高/低分的这两个例子。 样本数据之间也经常会出现各种隐含的关联关系,降低了数据之间的独立性或自由度Degrees of freedom),这会让样本更聚集,让样本偏差变小。 样本方差公式里的分母n-1,就是校正样本平均值带来的偏差,补偿其聚集效应