要明白第六题,先要清楚一些基本公式和R^2的定义,以下以矩阵和向量代数推导为主,大家凑合着看,
y是因变量,n×1向量;y1表示y的估计值,就是yhat;
e=y-y1, residual. y(T) 表示y的转置(transpose)。y0表示y的平均, 是一个1×1的数量;y~表示y1的平均, 1表示一个n×1的单位向量。
X为自变量,beta为系数(coefficient),beta1为beta的估计。N为样本大小(sample size).
注意无截距项时,y0与y~不一定相等。
SSE和SSR各书定义不同,此处采用Wooldridge的书的定义,就是刚好跟Greene的书定义相反。
那么,首先有:
基本等式是e(T)X=X(T)e=0, 所以e(T)y1=e(T)X(beta1)=0=y1(T)e
1. e(T)e=e(T)(y-y1)=e(T)y-e(T)y1=e(T)y=(y-y1)(T)y=y(T)y-y1(T)(y1+e)=y(T)y-y1(T)y1-y1(T)e=y(T)y-y1(T)y1
即e(T)e=y(T)y-y1(T)y1
2. SST=[y-1y0](T)[y-1y0]=y(T)y+1(T)1(y0^2)-y0[1(T)y]-y0(y(T)1)
注意y(T)1=Ny0=1(T)y,1(T)1=N所以
[y-1y0](T)[y-1y0]=y(T)y+1(T)1(y0^2)-y0[1(T)y]-y0(y(T)1)=y(T)y+N(y0^2)-N(y0^2)-N(y0^2)=y(T)y-N(y0^2)
同理,
SSE=[y1-1y~](T)[y1-1y~]=y1(T)y1-N(y~^2)
3. 在有截距项的情况下,y0=y~ 所以
e(T)e=y(T)y-y1(T)y1=[y(T)y-N(y0^2)]-[y1(T)y1-N(y0^2)]=[y-1y0](T)[y-1y0]-[y1-1y0](T)[y1-1y0]=SST-SSR
即SSR=SST-SSE,这时,因为SSR和SSE皆为正,R^2在0与1之间
4.在无截距的情况下, y0与y~并不相同,它们之间相差一个e的平均值(非0),在这种情况下,
SSR=SST-SSE并不成立,
因此,SSR可能比SST大,甚至SSE也有可能比SST大,因此根据R^2的不同定义,R^2可能取不同值
如果R^2的定义是(基本定义)
1-SSR/SST,那么R^2可能小于0,因为某些情况下,SSR>SST,但是R^2仍然小于或等于1,因为SSR为正
如果R^2的定义是
SSE/SST, 那么R^2可能大于1,因为某些情况下,SSE>SST,但是R^2仍然大于或等于0,因为SSE为正。
这个推导也说明了一点,同一个R^2的定义,不可能在某些情况下>1而同时在某些情况下<0.
以上是本人的证明,可能有错误,敬请指正。如果看不懂,把公式抄一遍,把(T)改成右上角的转置符就行了。当然也能写成内积或者平方和的形式,但是这个在论坛上不知如何书写,有心人可以试试。18楼说的没错,就是因为“OLS residuals不再具有zero sample average的性质”,y的平均值和y的估计的平均值不相同,他们之间差一个OLS residuals的平均值,所以有了上面的推理。
[此贴子已经被作者于2008-1-15 3:42:34编辑过]