其实这个问题在很多教科书中都有了标准的答案,论坛中也有这个
答案:
坛友zhang3333 进行了解答:
n-1的由来——样本方差无偏估计证明推导公式,样本方差与自由度
证明:
S2(x)=1/(n-1)∑[xi-E(x)]2为var2(x)的无偏估计
需证明E(S2)=var2(x)
∑[xi-E(x)]2=∑[xi-1/n∑xj]2,∑条件为j=1→n
=1/n2∑[(n-1)xi-∑xj]2,∑条件为j=1→n且j≠i
=1/n2∑[(n-1)2xi2-2(n-1)∑(xi xj)+ ∑xj2+2∑xj xz],∑条件为j=1→n,z=1→n,且j≠z≠i
E∑[xi-E(x)]2=1/n2∑[(n-1)2 E(xi2)-2(n-1)∑E (xixj)+ ∑E (xj2)+2∑E(xjxz)],
知抽样样本相互独立E (xixj)=E(xi)E(xj),且var(x)= E(x2)- E(x)2,且∑有n项,∑有n项,∑有n-1项,∑有(n-1)(n-2)/2项
E∑[x-E(x)]2=1/n2∑[(n-1)2E(xi2)-2(n-1)(n-1)E(x)2+(n-1)E(xj2)+(n-1)(n-2)E(x)2],
=1/n2∑[(n-1)2 var2(x)+ (n-1) var2(x)],
=1/n2 * n *[(n-1)2 var2(x)+ (n-1) var2(x)]
=(n-1) var2(x)
所以E(S2)=var2(x)
自由度是指当以样本的统计量来估计总体的参数时,
样本中独立或能自由变化的数据的个数称为该统计量的自由度。如果E(x)为一常数u,那么 var2(x)=1/n∑(x-u)2 。抽样样本方差估计中 E(x)由样本本身确定。当平均数的值和其中n-1个数据的值已知时,另一个数据的值就不能自由变化了,因此样本方差无偏估计的自由度为n-1。
当然,大家如果英语好点,也可以去看维基上的
解答。
接下来,我要给大家看看对这个“小问题”的不一样的理解,孰是孰非请大家自己判断。
以下内容转自
知乎
网友徐昇:
角度一 生活实例
样本的容量小于整体,所以有较小的可能性抽中一些极端的数据。比如找来一堆人做样本来测量身高,那么样本中出现巨人的可能性是很小的,这样得到的结果可能就会比实际小。为了弥补这点不足,就把分母变得小一些,这样就更能反应实际数据了。
质疑:这个解释其实不太合理。因为既然可能抽不到高个子,也同样可能抽不到矮个子,所以,分母既然可以变得小一些,也就应该有同样的理由变得大一些。我认为这个角度并不能说明问题。
角度二 自由度
自由度指的是等式中能够自由取值的变量的个数,如果有n个数能够自由取值,那么自由度就为n。
在样本方差的公式中, Xi有n个可取的值,所以Xi的自由度为n,但是,它接着还减去了 ,而 代表了样本中第1到第n个数值的平均值。那么,其实相当于增加了一个限制条件,原来的自由度要减去1,得n-1。(可以这样理解,如果自由度仍为n,那么 n个数可以随意取值的情况下,是不能得到一个确定的均值的。或者说,一堆数,如果知道了均值,那么其实只需要知道另外的n-1个数,这堆数中的每个数都确定了)
网友Jichun Si:
我来补充一个新的视角吧,希望能帮助理解。
有很多人提到了“自由度”的概念。那么自由度是什么?说的好玄乎,什么因为估计了一个参数所以少了一个自由度。我说
自由度是矩阵的“秩”或者“迹”有人信吗?
不信?来看:
就写这么多了。
另外
邹日佳的答案道出了实情,就是这个scalar不一定是n-1,也可能是n,n+1。但是他没说清楚为什么我们要追求无偏性。一般来说,极大似然的估计量可以保证一致性,但是不能保证无偏性。而一致性是在样本量很大的情况下的性质,但是小样本情形下未必多么好。所以我们做假设检验的时候经常要调整自由度的,大样本情况下你甚至可以忽略t和N,x2和F的差异,但是样本小的情况下,我们更愿意用t而非N,用F而非x2.
===================
居然被顶的这么高。嗯嗯,那我就继续补充吧。回答评论区里面对几个问题。有人说这么简单一个问题你搞这么复杂干嘛。首先这个一点都不复杂,为了大家看清楚步骤写的比较详细而已,实际上非常简单的东西,只要你熟练掌握线性代数。而且,这是最简单的情形。稍微复杂一点的应用中,不这么麻烦你会搞糊涂的。比如工具变量的估计,假设N个观测,K个解释变量,K+1个工具变量,你告诉我计算误差项的方差的时候,是(N-K)还是(N-K-1)还是(N-K-K-1)?第一阶段不是已经估计量K+1个参数吗?要不要算在自由度里面?有兴趣自己用上面的方法简单推一下就明白了。projection而已。
这里都是正交投影,trace=rank,但是我想用rank可以表达出跟“因为估计了一个参数”共同的理解,理解成N维空间里面投影的时候有一维共线了,这个纯属我自己多想。
其实
自由度调整有的时候不仅仅是为了无偏。举个栗子:
当我们做面板效应固定效应(FE)的时候,如果计算误差项的方差,应该是用1/(NT-K)吗?嗯嗯,错了。应该用1/(NT-N-K)。为什么?你可以用上面的矩阵的形式推出来,也可以理解成我们做within group transformation的时候实际上每个group都减掉了一期,所以样本量相当于只有N(T-1),也可以回想一下FE估计等价于FD估计的 GLS估计,而FD估计只有N(T-1)个样本。
不管了,反正记住FE计算方差要用NT-N-K,所以你看这里如果不对自由度做调整,这个方差的估计量连一致的都不是。当N趋向于无穷的时候,两种方法计算出来的趋向于T/(T-1)倍,两期的话就是两倍,三期的话就是1.5倍,差异很明显。
此外,在一定条件下,FE对个体异质性的估计虽然不是一致的,但是可以是无偏的。
存在总是有道理的。
网友邹日佳:
我能说陈述不成立么?
嗯,
样本方差的分母是m-1是因为它是无偏的,嗯,这个解释其实蛮牵强。
分母是m-1的情况下,估计值是总体方差的无偏估计。
分母是m的情况下,估计值是最大似然估计。
分母是m+1的情况下,估计值是最小MSE(Mean Squared Error) 的估计。
那凭什么m-1就好呢?无偏就这么好,要比最大似然好,要比最小MSE好?
如果觉得样本够大,那么用m-1是不错的,因为在大样本下,参数的方差就算大一点儿也不会多多少,影响也不会大到哪儿去。
如果要保证信息利用充分,那我肯定选择最大似然估计的方差。
如果样本数量较小,我就选择最小MSE,因为此时无偏性其实不是第一准则,因为无偏导致了大方差是不可取的行为。
统计是一门很灵活的学科,不同的数据,会有不同的方法来处理。