全部版块 我的主页
论坛 经济学论坛 三区 微观经济学 经济金融数学专区
361 1
2025-12-09

最小二乘估计解析:从普通到加权方法

在参数估计与系统建模中,最小二乘法是一种基础且广泛使用的工具。其核心理念是通过最小化预测值与实际观测之间的误差平方和,来求解最优模型参数。根据噪声特性及数据权重的不同,主要可分为两类:普通最小二乘(OLS)与加权最小二乘(WLS)。

线性模型的数学表达

考虑如下形式的线性参数模型:

y(i) = φ(i)θ + φ(i)θ + + φ(i)θ + e(i),i = 1, 2, …, m

其中:

  • y(i) 表示第 i 次观测的输出结果;
  • φ(i) 是第 i 次观测中第 j 个已知输入或特征变量;
  • θ 为待估计的未知参数;
  • e(i) 代表第 i 次观测中的随机噪声项;
  • m 为总的观测次数,通常要求 m > n,以确保方程组超定,便于求解。

矩阵形式表示

将上述模型转换为向量-矩阵形式,可简化运算与分析过程:

定义:

Y = [y(1), y(2), ..., y(m)]T,

Φ = [φ(i)] ∈ m×n,即由所有输入构成的设计矩阵;

θ = [θ, θ, ..., θ]T,为待估参数向量;

e = [e(1), e(2), ..., e(m)]T,表示噪声向量。

于是原模型可写成紧凑形式:

Y = Φθ + e

[此处为图片1]

普通最小二乘估计(OLS)原理

OLS 的目标是寻找一个参数估计值 θ,使得残差平方和达到最小:

J(θ) = Σi=1m e(i) = eTe = (Y Φθ)T(Y Φθ)

该优化问题可通过求导解决。对代价函数 J(θ) 关于 θ 求梯度并令其为零:

J/θ = 2ΦT(Y Φθ) = 0

整理后得到正规方程:

ΦTΦθ = ΦTY

ΦTΦ 可逆,则 OLS 的解析解为:

θ = (ΦTΦ)1ΦTY

[此处为图片2]

OLS 的基本假设与统计性质

为了保证 OLS 估计的有效性,通常需满足以下经典假设:

  • 噪声 e(i) 具有零均值:E[e(i)] = 0;
  • 噪声同方差且不相关:Cov(e(i), e(j)) = σδij,其中 δij 为克罗内克函数;
  • 设计矩阵 Φ 为确定性矩阵,且列满秩(rank(Φ) = n);
  • 噪声与输入变量无关联。

在此条件下,OLS 估计具有良好的统计性质:

  • 无偏性:E[θ] = θ
  • 最小方差性:在所有线性无偏估计中,OLS 具有最小方差(高斯-马尔可夫定理);
  • 协方差矩阵为:Var(θ) = σ(ΦTΦ)1

加权最小二乘估计(WLS)引入动机

当观测数据存在异方差(即不同观测点的噪声方差不同)时,OLS 不再是最优估计方法。此时应采用加权策略,给予更可靠的数据更高的权重。

设噪声向量 e 的协方差矩阵为:

Cov(e) = E[eeT] = R

其中 R 为正定对称矩阵。若 R ≠ σI,说明误差不具备同方差性。

加权代价函数与求解

WLS 定义新的代价函数,引入权重矩阵 W,通常取 W = R1

Jw(θ) = (Y Φθ)TW(Y Φθ)

对该函数求导并令导数为零:

Jw/θ = 2ΦTW(Y Φθ) = 0

解得 WLS 的解析解为:

θw = (ΦT)1ΦTWY

[此处为图片3]

WLS 的统计性质

当选择 W = R1 时,WLS 估计具备以下优良性质:

  • 仍保持无偏性:E[θw] = θ
  • 达到最小方差,在所有线性无偏估计中效率最高;
  • 参数估计的协方差为:Var(θw) = (ΦTR1Φ)1

特殊情况:对角权重矩阵

在多数实际应用中,噪声之间相互独立,因此协方差矩阵 R 为对角阵:

R = diag(r, r, ..., r)

此时对应的权重矩阵也取为对角形式:W = diag(1/r, 1/r, ..., 1/r),即每个观测点按其方差的倒数赋予权重。

这种设定下,WLS 实质上是对高精度观测赋予更大影响,从而提升整体估计质量。

OLS 与 WLS 的对比分析

两者的核心区别在于对待误差结构的方式:

  • OLS 假设所有观测具有相同可靠性,适用于同方差场景;
  • WLS 引入权重机制,适应异方差情况,能提供更精确的估计结果。

选择准则建议:

  • 若残差分析显示方差稳定,使用 OLS 即可;
  • 若某些测量明显更可信(如传感器精度不同),应优先采用 WLS。

应用实例展示

OLS 示例:线性回归分析

在房价预测、趋势拟合等任务中,常假设各数据点误差水平相近。此时采用 OLS 进行直线或多项式拟合,计算简便且效果良好。

例如,给定一组 (x, y) 数据点,构造设计矩阵 Φ 包含常数项与 x 值,直接利用公式 θ = (ΦTΦ)1ΦTY 得到回归系数。

[此处为图片4]

WLS 示例:多传感器融合

在导航系统或多源感知中,不同传感器的测量精度各异。例如,GPS 定位误差较大,而激光雷达精度更高。

此时构建模型时,应为每类传感器分配相应权重。设 GPS 观测方差为 σ,激光雷达为 σ(σ < σ),则在代价函数中赋予后者更高权重,实现更优的状态估计。

通过 WLS 融合,可在不增加复杂滤波算法的前提下显著提高估计精度。

[此处为图片5]

总结

最小二乘法作为参数估计的基础手段,其变体 OLS 和 WLS 分别适用于不同的噪声环境。OLS 在同方差假设下简洁高效,而 WLS 通过引入权重机制,在处理非均匀不确定性时表现出更强的鲁棒性与精度优势。合理选择方法,并结合实际数据特征进行建模,是提升系统辨识性能的关键。

对目标函数关于参数向量求偏导并令其为零,得到:

\[ \frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -2\Phi^T(\mathbf{Y} - \Phi \boldsymbol{\theta}) = 0 \]

由此可推导出正规方程(Normal Equation)的形式:

\[ \Phi^T \Phi \hat{\boldsymbol{\theta}} = \Phi^T \mathbf{Y} \]

[此处为图片1]

若矩阵 \(\Phi^T \Phi\) 可逆,这一条件通常要求设计矩阵 \(\Phi\) 列满秩,即特征之间不存在完全的线性相关关系,则普通最小二乘(OLS)的参数估计可通过左伪逆形式表示为:

\[ \boxed{\hat{\boldsymbol{\theta}}_{\text{OLS}} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y}} \]

基本假设

普通最小二乘法的有效性依赖于以下统计前提:

线性关系:模型的真实结构是线性的,响应变量与特征之间通过线性组合关联。

无完全共线性:设计矩阵 \(\Phi\) 的列向量线性无关,确保 \(\Phi^T \Phi\) 可逆。

零均值噪声:误差项满足 \(\mathbb{E}[\mathbf{e}] = 0\),即系统误差不存在。

同方差性:每个观测的误差具有相同的方差,即 \(\text{Var}(e(i)) = \sigma^2\),其中 \(\sigma^2\) 为常数。

无自相关:不同观测之间的误差互不相关,满足 \(\mathbb{E}[e(i)e(j)] = 0\),当 \(i \neq j\) 时成立。

外生性:设计矩阵 \(\Phi\) 与误差向量 \(\mathbf{e}\) 不相关,避免遗漏变量偏差。

统计性质

在上述假设条件下,OLS估计具备如下优良特性:

无偏性:估计量的期望等于真实参数,即 \(\mathbb{E}[\hat{\boldsymbol{\theta}}_{\text{OLS}}] = \boldsymbol{\theta}\)。

协方差矩阵:参数估计的协方差为 \(\text{Cov}(\hat{\boldsymbol{\theta}}_{\text{OLS}}) = \sigma^2 (\Phi^T \Phi)^{-1}\)。

高斯-马尔可夫定理:在所有线性无偏估计中,OLS具有最小方差,因此是最优线性无偏估计(BLUE)。

一致性:随着样本量 \(m \to \infty\),估计值收敛于真实参数,即 \(\hat{\boldsymbol{\theta}}_{\text{OLS}} \to \boldsymbol{\theta}\)。

加权最小二乘估计(WLS)

问题背景

当误差项不满足同方差假设,即存在异方差性(Heteroscedasticity)时:

\[ \text{Var}(e(i)) = \sigma_i^2 \neq \text{常数} \]

此时,尽管OLS估计仍保持无偏性,但其不再具有最小方差,效率降低。为此引入加权最小二乘法(WLS),通过对不同精度的观测赋予相应权重以提升估计效率。

噪声协方差结构

一般地,设误差向量 \(\mathbf{e}\) 的协方差矩阵为 \(R\)

\[ R = \begin{bmatrix} \sigma_1^2 & \sigma_{12} & \cdots & \sigma_{1m} \\ \sigma_{21} & \sigma_2^2 & \cdots & \sigma_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{m1} & \sigma_{m2} & \cdots & \sigma_m^2 \end{bmatrix} \]

其中对角元素表示各观测的方差,非对角元素反映观测间的相关性。

[此处为图片2]

加权代价函数

WLS通过最小化加权残差平方和来优化参数:

\[ J_W(\boldsymbol{\theta}) = (\mathbf{Y} - \Phi \boldsymbol{\theta})^T W (\mathbf{Y} - \Phi \boldsymbol{\theta}) \]

其中权重矩阵 \(W\) 通常取为噪声协方差矩阵 \(R\) 的逆矩阵,即 \(W = R^{-1}\),以实现最优加权。

在加权最小二乘法(WLS)中,代价函数定义为:

J_W(\boldsymbol{\theta}) = (\mathbf{Y} - \Phi \boldsymbol{\theta})^T W (\mathbf{Y} - \Phi \boldsymbol{\theta})

其中,W 是一个正定对称的权重矩阵。最优的权重选择为 W = R^{-1},即噪声协方差矩阵的逆。

WLS 的解析解推导

为了求解参数估计值,需对代价函数 J_W(\boldsymbol{\theta}) 关于 \boldsymbol{\theta} 求梯度并令其为零:

\frac{\partial J_W(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -2\Phi^T W (\mathbf{Y} - \Phi \boldsymbol{\theta}) = 0

由此可得加权正规方程:

\Phi^T W \Phi \hat{\boldsymbol{\theta}} = \Phi^T W \mathbf{Y}

若矩阵 \Phi^T W \Phi 可逆,则 WLS 的参数估计结果为:

\hat{\boldsymbol{\theta}}_{\text{WLS}} = (\Phi^T W \Phi)^{-1} \Phi^T W \mathbf{Y}

特别地,当采用最优权重 W = R^{-1} 时,估计公式变为:

\hat{\boldsymbol{\theta}}_{\text{WLS}} = (\Phi^T R^{-1} \Phi)^{-1} \Phi^T R^{-1} \mathbf{Y}

统计性质分析

在设定 W = R^{-1} 的条件下,WLS 估计具备如下优良统计特性:

无偏性
E[\hat{\boldsymbol{\theta}}_{\text{WLS}}] = \boldsymbol{\theta}
表明估计量的期望等于真实参数值。

协方差矩阵
\text{Cov}(\hat{\boldsymbol{\theta}}_{\text{WLS}}) = (\Phi^T R^{-1} \Phi)^{-1}
给出了参数估计的精度信息。

有效性
在广义线性模型框架下,WLS 是最佳线性无偏估计(BLUE)。

高斯-马尔可夫定理推广
当观测误差的协方差结构为 \text{Cov}(\mathbf{e}) = R 时,选择权重矩阵 W = R^{-1} 能够得到最小方差的线性无偏估计,这是经典高斯-马尔可夫定理在非球形扰动下的扩展。

特殊情况:对角型权重矩阵

当噪声之间相互独立时,协方差矩阵 R 为对角阵:

R = \text{diag}(\sigma_1^2, \sigma_2^2, \dots, \sigma_m^2)

此时对应的最优权重矩阵为:

W = R^{-1} = \text{diag}(1/\sigma_1^2, 1/\sigma_2^2, \dots, 1/\sigma_m^2)

代价函数随之简化为:

J_W(\boldsymbol{\theta}) = \sum_{i=1}^{m} \frac{1}{\sigma_i^2} [y(i) - \phi(i)^T \boldsymbol{\theta}]^2

这一形式直观体现了 WLS 的核心思想:对方差较大(即可靠性较低)的观测赋予较小的权重,而对方差较小(即更可靠)的观测则赋予更高的权重,从而提升整体估计的稳定性与准确性。

OLS 与 WLS 的对比分析

特性 普通最小二乘 (OLS) 加权最小二乘 (WLS)
适用条件 同方差且噪声无相关性 存在异方差或噪声相关的情况
权重矩阵 W = I W = R^{-1}(最优选择)
估计公式 \hat{\boldsymbol{\theta}} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y} \hat{\boldsymbol{\theta}} = (\Phi^T W \Phi)^{-1} \Phi^T W \mathbf{Y}
协方差矩阵 \sigma^2 (\Phi^T \Phi)^{-1} (\Phi^T R^{-1} \Phi)^{-1}
估计效率 在同方差情形下达到最优 在异方差情形下优于 OLS
计算复杂度 较低 较高(需事先估计 RW

在参数估计方法中,普通最小二乘(OLS)与加权最小二乘(WLS)是两种广泛应用的技术。它们适用于不同的噪声特性场景,具有各自的优劣和适用条件。

当数据满足同方差性且噪声无相关性时,OLS是一种高效且计算简便的估计方法;而当存在异方差或噪声具有相关性时,WLS通过引入权重矩阵能够提供更精确的估计结果。

[此处为图片1]

核心特性对比

特性 普通最小二乘 (OLS) 加权最小二乘 (WLS)
适用条件 同方差、无相关噪声 异方差或相关噪声
权重矩阵 W = I W = R(最优选择)
估计公式 θ = (ΦΦ)ΦY θ = (ΦWΦ)ΦWY
协方差矩阵 σ(ΦΦ) (ΦRΦ)
估计效率 在同方差下达到最优 在异方差下优于OLS
计算复杂度 较低 较高(需估计R或W)
[此处为图片2]

方法选择准则

  • 若噪声协方差矩阵 R 已知或可准确估计,则推荐使用 WLS,取权重矩阵为 W = R,以获得最佳估计性能。
  • R 未知但怀疑存在异方差时,可先进行异方差性检验,并考虑采用可行广义最小二乘法(FGLS)进行处理。
  • 在样本量充足且满足同方差假设的情况下,OLS因其简单性和有效性仍是首选方案。
  • 特别地,当噪声协方差矩阵 R 为对角阵时,WLS等价于对观测数据按标准差进行归一化后应用OLS。

实际应用示例

1. 普通最小二乘(OLS):线性回归模型

考虑一个简单的线性模型:

y = a + bx + e

假设有两次观测:

Φ = [

1x
1x
], Y = [
y
y
]

则 OLS 解为:

[

b
] = (ΦΦ)ΦY = 12∑x (∑x) [
∑x∑x
∑x2
]
[
∑y
∑xy
]

[此处为图片3]

2. 加权最小二乘(WLS):传感器数据融合

假设两个不同精度的传感器测量同一物理量 θ

y = θ + e,Var(e) = σ
y = θ + e,Var(e) = σ

构建模型矩阵与噪声协方差矩阵:

Φ = [

1
1
], R = [
σ0
0σ
]

对应的 WLS 估计结果为:

θWLS = [

y/σ + y/σ
1/σ + 1/σ
]

[此处为图片4]

加权最小二乘估计的表达式为:

\[\hat{\theta}_{\text{WLS}} = \frac{\frac{y_1}{\sigma_1^2} + \frac{y_2}{\sigma_2^2}}{\frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2}}\]

[此处为图片1]

该公式体现的是基于方差倒数的加权平均机制。其中,测量精度较高的传感器(即具有较小方差)会被赋予更大的权重,从而在最终估计中占据更主导的地位。

普通最小二乘(OLS)与加权最小二乘(WLS)共同构成了经典线性估计理论的核心基础。当噪声满足同方差性时,OLS估计具备最优性;而WLS通过引入适当的权重矩阵,能够有效应对异方差甚至相关噪声的情形。

在实际应用中,应根据观测数据的噪声特性合理选择估计方法。若权重信息未知,常采用迭代策略逐步逼近真实权重结构。此外,这两种方法也为更复杂的估计算法,例如递推最小二乘和卡尔曼滤波,提供了重要的理论支撑。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2025-12-28 16:00:48
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群