最小二乘法(Ordinary Least Squares,简称OLS)在进行线性回归分析时,目标是最小化误差平方和。设线性模型为 \(y = \beta_0 + \beta_1x + e\),其中 \(e\) 是残差。
为了最小化残差平方和 \(\sum_{i=1}^{n}(y_i - (\beta_0 + \beta_1x_i))^2\),我们需要对 \(\beta_0\) 和 \(\beta_1\) 求偏导数,并令它们等于 0 来找到最小值点。但是残差和为 0 的直观解释是OLS拟合线通过数据的平均点\((\bar{x}, \bar{y})\)。
证明如下:
对于模型 \(y_i = \beta_0 + \beta_1x_i + e_i\),假设我们已经找到了最小化平方误差的参数估计值 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\)。残差定义为 \(e_i = y_i - (\hat{\beta}_0 + \hat{\beta}_1x_i)\)。
要证明OLS得到的残差之和是 0,即 \(\sum_{i=1}^{n}e_i = 0\)。
根据模型,
\[
y_i = \hat{\beta}_0 + \hat{\beta}_1x_i + e_i
\]
两边同时求和,得:
\[
\sum_{i=1}^{n}y_i = n\hat{\beta}_0 + \hat{\beta}_1\sum_{i=1}^{n}x_i + \sum_{i=1}^{n}e_i
\]
由于拟合线通过点 \((\bar{x}, \bar{y})\),即 \(\hat{\beta}_0 + \hat{\beta}_1\bar{x} = \bar{y}\),其中 \(\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i\) 和 \(\bar{y} = \frac{1}{n}\sum_{i=1}^{n}y_i\)。
代入上式得:
\[
n\bar{y} = n\hat{\beta}_0 + \hat{\beta}_1n\bar{x} + \sum_{i=1}^{n}e_i
\]
由拟合线通过点 \((\bar{x}, \bar{y})\) 的性质,上式化简为:
\[
n\bar{y} = n(\hat{\beta}_0 + \hat{\beta}_1\bar{x}) + \sum_{i=1}^{n}e_i
\]
即
\[
n\bar{y} = n\bar{y} + \sum_{i=1}^{n}e_i
\]
从而可以推出:
\[
\sum_{i=1}^{n}e_i = 0
\]
这表明OLS得到的残差之和确实是 0。这个结果也暗示了,拟合线在数据点平均值的位置上是完美的平衡。
因此,在OLS回归中,残差之和为零是一个自然的结果,也是OLS估计的一个重要性质。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用