关于你的问题,我们可以分两部分来解答:
### 1. 为什么随机变量和扰动项相关就会使参数估计有偏?
在多元线性回归模型中,假设我们有模型 \(Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \varepsilon\),其中 \(Y\) 是因变量,\(X_i\) 是解释变量,\(\varepsilon\) 是随机扰动项,\(\beta_i\) 是参数。在这个模型中,我们假设随机扰动项 \(\varepsilon\) 是随机的,并且与所有的解释变量 \(X_i\) 都不相关。这个假设很重要,因为它保证了我们估计的参数 \(\beta_i\) 是无偏的。
如果解释变量和随机扰动项相关,那么这意味着解释变量不能完全解释因变量 \(Y\) 的变化,还有一部分变化是通过解释变量与扰动项的相关性“隐藏”在扰动项中的。这样,当我们试图估计解释变量对因变量的影响(即参数 \(\beta_i\))时,我们实际上是用包含了与解释变量相关的扰动项的数据来进行估计,这会导致估计结果偏离真实值,也就是说,参数估计会有偏。
### 2. 为什么残差和解释变量估计值乘积的和等于零?
在多元线性回归中,残差是实际观测值与模型预测值之差,即 \(e_i = Y_i - \hat{Y}_i\)。这里的 \(\hat{Y}_i\) 是由回归模型给出的 \(Y\) 的估计值。根据最小二乘法的原理,回归模型的参数估计是通过最小化残差平方和来实现的,即最小化 \(\sum (Y_i - \hat{Y}_i)^2\)。
残差和解释变量估计值乘积之和等于零可以从最小二乘法的正态方程推导出来。对于任何一个解释变量 \(X_j\),正态方程可以表示为 \(\sum X_{ij} \cdot (Y_i - \hat{Y}_i) = 0\),这里 \(X_{ij}\) 表示第 \(i\) 个观测值的第 \(j\) 个解释变量的值。这个方程实质上说明了在最优参数估计下,解释变量 \(X_j\) 和残差 \(e_i\) 的乘积之和等于零,这是因为在最小化残差平方和的过程中,残差 \(e_i\) 的值被调整到了这样一个状态:它们与每一个解释变量的乘积之和都为零,这反映了残差在解释变量空间中的正交性。
简而言之,这个性质保证了在最小二乘估计中,解释变量不能通过残差来解释更多的 \(Y\) 的变化,从而确保了估计的准确性和假设的有效性。
此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用