用投影的观点解释比较直观。几何上来看,最小二乘估计\[\hat{Y} \]是观测向量\[Y\]在解释变量\[x_1, \ldots, x_p\]张成的线性空间\[L(x_1, \ldots, x_p)\]上的投影,\[\hat{Y}\]作为“投影”的意思是:\[\hat{Y}\]是在一切落在\[L = L(x_1, \ldots, x_p)\]的向量中,使得其残差平方和达到最小的向量,即\[SSE = \|Y - \hat{Y}\|^2 = \min_{z \in L} \|Y - z\|^2\]
现在如果回归模型2的自变量个数大于回归模型1的自变量个数,则模型1自变量张成的线性空间\[L_1\]是模型2自变量张成的线性空间\[L_2\]的子空间,故有:
\[SSE_1 = \|Y - \hat{Y}_1\|^2 = \min_{z \in L_1} \|Y - z\|^2 \geq \min_{z \in L_2} \|Y - z\|^2 = \|Y - \hat{Y}_2\|^2 = SSE_2 \]
因总平方和SST不取决于模型,所以模型2的R方必然不小于模型1的R方。
P.S: 文字内的数学公式都单独占行显示了,将就着看吧(希望论坛能够更好地解决这个问题)。