线性代数 - 理解求解矩阵特征值的特征方程
flyfish
特征方程是为一个给定矩阵定义的,旨在描述该矩阵的独特性质。它是用于求解矩阵特征值的关键方程,主要目标是通过解决此方程来确定矩阵的所有特征值 \( \lambda \)。
理解
步骤1: 为什么需要特征值
1.1 线性变换:
在数学中,矩阵(假设为 \( n \times n \) 的实数或复数方阵)代表一个线性转换。例如,在二维空间里,矩阵可以将一个向量“转换”成另一个向量,如旋转、拉伸或反射。我们希望分析这种变换的核心特性:不是对所有向量都进行复杂的变换,而是针对某些特定向量仅执行简单的“缩放”(乘以一个数字)。
1.2 定义的引入:
为了捕捉这一“缩放”行为,定义:对于矩阵 \( A \),如果存在一个标量 \( \lambda \)(称为特征值,eigenvalue,源自德语‘eigen’意为‘固有的’)和一个非零向量 \( \mathbf{v} \)(称为特征向量),满足:\( A \mathbf{v} = \lambda \mathbf{v} \)。
这里,\( \mathbf{v} \) 不能是零向量,因为零向量虽然满足任何 \( \lambda \),但没有实际意义(因为它不表示方向)。\( \lambda \) 是标量,可以是实数或复数,具体取决于矩阵。
为什么是非零?如果 \( \mathbf{v} = \mathbf{0} \),等式总是成立,但这并不提供关于矩阵的任何信息。
1.3 直观例子:
考虑一个简单的2×2对角矩阵 \( A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix} \)。
对于向量 \( \mathbf{v} = \begin{pmatrix} 1 \\ 0 \end{pmatrix} \),\( A \mathbf{v} = \begin{pmatrix} 2 \\ 0 \end{pmatrix} = 2 \begin{pmatrix} 1 \\ 0 \end{pmatrix} \),因此 \( \lambda = 2 \)。
对于向量 \( \mathbf{v} = \begin{pmatrix} 0 \\ 1 \end{pmatrix} \),\( \lambda = 3 \)。
这表明矩阵在x轴上缩放了2倍,在y轴上缩放了3倍。特征值揭示了这些“固有的缩放”特性。
1.4 问题提出:
有了定义,但如何系统地找到所有的 \( \lambda \)?这就需要一个数学方程来求解 \( \lambda \),引出下一步。
逻辑连接到步骤2
这个定义是起点,但它是一个等式,而不是可以直接解决的方程。我们需要对其进行变形,使其变成可以处理的线性方程组形式。
步骤2: 从定义变形到齐次线性方程组(引入矩阵形式)
2.1 变形的基本想法:
从 \( A \mathbf{v} = \lambda \mathbf{v} \) 开始,目标是将所有项移到一边,使其等于零的形式,这样便于使用线性代数工具进行分析。
为什么这样做?因为线性代数擅长处理形式为 \( M \mathbf{x} = \mathbf{b} \) 的方程,特别是当 \( \mathbf{b} = \mathbf{0} \) 时(齐次方程)。
子步骤:先减去右边的项:\( A \mathbf{v} - \lambda \mathbf{v} = \mathbf{0} \)。
这里 \( \mathbf{v} \) 是公共因子,但不能直接除(因为 \( \mathbf{v} \) 是向量)。
2.2 引入单位矩阵的必要性:
注意到 \( \lambda \mathbf{v} = (\lambda I) \mathbf{v} \),其中 \( I \) 是单位矩阵(\( n \times n \),主对角线为1,其余为0)。
为什么需要 \( I \)?因为 \( \lambda \) 是标量,不能直接减去矩阵 \( A \)。乘以 \( I \) 将 \( \lambda \) “扩展”成矩阵形式:\( \lambda I = \begin{pmatrix} \lambda & 0 \\ 0 & \lambda \end{pmatrix} \)(对于2×2)。
这样,等式变为:\( A \mathbf{v} - (\lambda I) \mathbf{v} = \mathbf{0} \)。
进一步因式分解:\( (A - \lambda I) \mathbf{v} = \mathbf{0} \)。
解释:\( A - \lambda I \) 是新矩阵,每个对角元素减去 \( \lambda \),非对角元素保持不变。
2.3 例子说明变形:
继续使用...
A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}
A
=
\begin{pmatrix}
2 & 0 \\
0 & 3
\end{pmatrix}。
A?λI=(2?λ003?λ)A - \lambda I = \begin{pmatrix} 2 - \lambda & 0 \\ 0 & 3 - \lambda \end{pmatrix}
A
?
λ
I
=
\begin{pmatrix}
2
-
λ
&
0
\\
0
&
3
-
λ
\end{pmatrix}
方程:
(2?λ003?λ)(v1v2)=(00)\begin{pmatrix} 2 - \lambda & 0 \\ 0 & 3 - \lambda \end{pmatrix} \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \end{pmatrix}
\begin{pmatrix}
2
-
λ
&
0
\\
3
-
λ
\end{pmatrix}
\begin{pmatrix}
v_1
\\
v_2
\end{pmatrix}
=
\begin{pmatrix}
0
\\
0
\end{pmatrix}
这展开成:
(2?λ)v1=0(2 - \lambda) v_1 = 0
(2
-
λ)
v_1
=
,
(3?λ)v2=0(3 - \lambda) v_2 = 0
(3
-
λ)
v_2
=
。要非零解,如当
λ=2\lambda = 2
,则
v_2
任意,
v1=0v_1 = 0
(如果要非零v)。
2.4 为什么是齐次方程组?
:这个形式叫
齐次线性方程组
,因为右边是零,且所有方程是线性的(无常数项)。
齐次方程总有零解,但我们关心非零解,这直接关联到矩阵的性质(如秩、核)。
如果不变形,就停留在抽象等式,无法用行列式等工具。
逻辑连接到步骤3
:现在有方程组,但还没条件确保非零解。下一步用线性代数的定理来找出这个条件。
步骤3: 齐次方程组有非零解的条件(非平凡解的存在)
3.1 回顾齐次方程组
:对于一般齐次方程
Mx=0M \mathbf{x} = \mathbf{0}
(\( M \) 是 \( n \times n \) 矩阵),它总有平凡解
\(\mathbf{x} = \mathbf{0}\)。
但非平凡解(非零 \(\mathbf{x}\))的存在取决于 \( M \) 的性质。
基础定理(线性代数公理):如果 \( M \) 可逆(满秩,行列式非零),则只有零解(因为 \(\mathbf{x} = M^{-1} \mathbf{0} = \mathbf{0}\))。
如果 \( M \) 不可逆(奇异,秩 < n),则有无穷多非零解(自由变量存在)。
3.2 不可逆的充要条件
:方阵 \( M \) 不可逆 ? 其行列式 \(\det(M) = 0\) 或 \(\lvert M \rvert = 0\)。
为什么行列式?行列式是矩阵的“体积”度量:为零意味着列向量线性相关,无法“反转”变换。
子证明简述:行列式定义为交替多线性形式;如果列相关,行列式为零(基本性质)。反之,如果非零,存在逆矩阵(伴随矩阵公式)。
3.3 应用到我们的情况
:在这里,\( M = A - \lambda I \),方程是 \( (A - \lambda I) \mathbf{v} = \mathbf{0} \)。
要非零 \(\mathbf{v}\),必须 \( A - \lambda I \) 不可逆,即:
\(|A - \lambda I| = 0\) 这就是特征方程的雏形。
3.4 例子验证
:用前例,\(|A - \lambda I| = (2 - \lambda)(3 - \lambda) = 0\),解得 \(\lambda = 2, 3\),匹配我们直观的特征值。
如果 \(\lambda = 1\)(不是特征值),行列式 = (2-1)(3-1) = 2 ≠ 0,矩阵可逆,只有零解。
3.5 为什么这个条件必要且充分?
:必要:如果有非零 \(\mathbf{v}\),则 \( A - \lambda I \) 有非零核,故不可逆。
充分:如果行列式为零,则存在非零 \(\mathbf{v}\) 在核中。
这基于可逆矩阵定理(invertible matrix theorem)的多个等价条件。
逻辑连接到后续
:这个步骤给出条件 \( |A - \lambda I| = 0 \),下一步就是计算它,形成多项式方程。
步骤4: 形成特征方程(多项式方程的出现)
4.1 行列式的计算背景
:从步骤3,知道要 \( |A - \lambda I| = 0 \)。现在,
\(|A - \lambda I|\) 不是一个常数,而是一个关于 \(\lambda\) 的表达式。我们需要计算它,看它是什么形式。
为什么计算行列式?行列式是一个多重线性函数,能将矩阵“压缩”成一个标量多项式。其定义(通过 Leibniz 公式或 Laplace 展开)确保了对
λ\lambda
λ
的依赖呈多项式形式。
对于 n×n 矩阵,行列式是置换乘积的交替和。虽然高斯消元也可以计算,但这里我们侧重其多项式的特性。
子步骤:矩阵
A?λIA - \lambda I
A
?
λ
I
的元素为
aij?δijλa_{ij} - \delta_{ij} \lambda
a
ij
?
?
δ
ij
?
λ
,其中
δij=1\delta_{ij} = 1
δ
ij
?
=
1
当 i=j,否则0。因此只有对角线上有
λ\lambda
λ
。
4.2 特征多项式的定义和形式
:计算
p(λ)=∣A?λI∣=det?(A?λI)p(\lambda) = |A - \lambda I| = \det(A - \lambda I)
p
(
λ
)
=
∣
A
?
λ
I
∣
=
det
(
A
?
λ
I
)
,结果是一个 n 次多项式(首一多项式,如果用
∣λI?A∣|\lambda I - A|
∣
λ
I
?
A
∣
则最高次项系数为1)。
为什么是多项式?因为行列式是元素的多项式函数:展开时,
λ\lambda
λ
仅出现在对角线上,最高次为
(?λ)n(-\lambda)^n
(
?
λ
)
n
(n次),系数取决于 A 的元素。
正式形式:
p(λ)=(?1)nλn+cn?1λn?1+?+c1λ+c0p(\lambda) = (-1)^n \lambda^n + c_{n-1} \lambda^{n-1} + \cdots + c_1 \lambda + c_0
p
(
λ
)
=
(
?
1
)
n
λ
n
+
c
n
?
1
?
λ
n
?
1
+
?
+
c
1
?
λ
+
c
?
,其中系数
ckc_k
c
k
?
源自 A 的子行列式(minor)。
例如,迹(trace)是
?cn?1-c_{n-1}
?
c
n
?
1
?
(对角和);常数项为
(?1)ndet?(A)(-1)^n \det(A)
(
?
1
)
n
det
(
A
)
。
这称为
特征多项式
,因为它“描述”了矩阵的特征值(根)。
4.3 详细例子计算
:考虑2×2矩阵
A=(abcd)A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}
A
=
(
a
c
?
b
d
?
)
。
A?λI=(a?λbcd?λ)A - \lambda I = \begin{pmatrix} a - \lambda & b \\ c & d - \lambda \end{pmatrix}
A
?
λ
I
=
(
a
?
λ
c
?
b
d
?
λ
?
)
。
行列式:
∣A?λI∣=(a?λ)(d?λ)?bc=λ2?(a+d)λ+(ad?bc)|A - \lambda I| = (a - \lambda)(d - \lambda) - b c = \lambda^2 - (a+d) \lambda + (a d - b c)
∣
A
?
λ
I
∣
=
(
a
?
λ
)
(
d
?
λ
)
?
b
c
=
λ
2
?
(
a
+
d
)
λ
+
(
a
d
?
b
c
)
(注意最高次项系数1,如果用
∣λI?A∣|\lambda I - A|
∣
λ
I
?
A
∣
则相同但符号相反)。
这是一个二次多项式:解
λ2?tr(A)λ+det?(A)=0\lambda^2 - tr(A) \lambda + \det(A) = 0
λ
2
?
t
r
(
A
)
λ
+
det
(
A
)
=
,根即为特征值。
具体数例:如果
A=(2003)A = \begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}
A
=
(
2
?
3
?
)
,则
p(λ)=(λ?2)(λ?3)=λ2?5λ+6p(\lambda) = (\lambda - 2)(\lambda - 3) = \lambda^2 - 5\lambda + 6
p
(
λ
)
=
(
λ
?
2
)
(
λ
?
3
)
=
λ
2
?
5
λ
+
6
,设为0得
λ=2,3\lambda = 2,3
λ
=
2
,
3
。
4.4 为什么设为零形成方程?
:特征多项式
p(λ)p(\lambda)
p
(
λ
)
的根即满足
p(λ)=0p(\lambda) = 0
p
(
λ
)
=
的
λ\lambda
λ
,这些根正是特征值(根据代数基本定理,n次多项式有n个根,计重数)。
子证明:如果
λ0\lambda_0
λ
?
是根,则
∣A?λ0I∣=0|A - \lambda_0 I| = 0
∣
A
?
λ
?
I
∣
=
,由步骤3,存在非零
v\mathbf{v}
v
,因此
λ0\lambda_0
λ
?
是特征值。
反之,如果
λ0\lambda_0
λ
?
是特征值,则存在非零
v\mathbf{v}
v
,矩阵奇异,行列式为零,故为根。
这就是
特征方程
:
∣A?λI∣=0|A - \lambda I| = 0
∣
A
?
λ
I
∣
=
或
p(λ)=0p(\lambda) = 0
p
(
λ
)
=
。
将问题转化为解多项式方程(使用公式、数值方法如 Newton 迭代)。