特征值、特征向量与对角化
矩阵表示线性变换。多数向量被矩阵作用后会改变长度,也会改变方向;特征向量是少数例外:它们的方向保持不变,只沿着原来的直线被拉伸、压缩或反向。

矩阵作用后,特征向量方向不变,只被拉伸或压缩;普通向量可能转到不同方向。
这一章从这个“方向不变”的现象出发。我们会学习怎样求特征值和特征向量,怎样判断矩阵能否对角化,以及为什么对角化会让 Ak、差分方程和长期比例问题变得简单。
本章最好始终保留两个画面:一个是几何画面,特征向量沿着自己的直线运动;另一个是代数画面,矩阵在特征向量坐标里只做坐标缩放。两个画面指向同一件事。
方向不变的向量
设 A 是一个方阵。如果存在非零向量 v 和数 λ,使得
Av=λv
那么 v 叫作 A 的特征向量,λ 叫作对应的特征值。
这里必须要求 v=0。零向量被任何矩阵作用后仍然是零向量,如果把它也算进去,定义就失去了区分能力。特征向量说的是一条真正的方向,而零向量没有方向。
特征值 λ 描述沿这个方向发生了什么:
- λ>1:沿原方向放大。
- 0<λ<1:沿原方向压缩。
- λ<0:方向反过来,同时按 ∣λ∣ 缩放。
- :这个方向被压到零向量。
特征向量不是“长度不变”的向量,而是“方向不变”的向量。长度是否改变由特征值决定。若 λ=−2,向量会翻到相反方向并变成原来的 2 倍,它仍然是特征向量。
一个直接例子
考虑矩阵
A=[3002]
对标准基向量 e1=[10],有
Ae1=[30]=3e
所以 e1 是特征向量,对应特征值为 3。同理,
Ae2=[02]=2e
所以 e2 是特征向量,对应特征值为 2。
这个矩阵很容易看懂,因为它本来就沿坐标轴分别缩放。一般矩阵的特征方向可能不是坐标轴,但目标仍然一样:找到那些被矩阵作用后不转向的直线。
从定义到特征方程
特征值和特征向量的计算从定义开始:
Av=λv
把右边移到左边:
Av−λv=0
由于 v=Iv,上式可以写成
(A−λI)v=0
我们要找的是非零解 v。一个齐次方程组有非零解,当且仅当系数矩阵不可逆。于是
det(A−λI)=0
这个方程叫作特征方程。先解特征方程得到特征值,再把每个特征值代回 (A−λI)v=0,得到对应的特征向量。

特征值对应 A-λI 有非零解;几何上变换把平面压扁,因此 det(A-λI)=0。
特征方程不是凭空来的。它来自“齐次方程要有非零解”这个条件。若 A−λI 可逆,则 (A−λI)v=0 只有零解,不能提供特征方向。
二阶矩阵的常用形式
设
A=[acbd]
则
A−λI=[a−λcbd
特征方程为
det(A−λI)=(a−λ)(d−λ)−bc=0
也就是
λ2−(a+d)λ+(ad−bc)=0
这里的 a+d 是矩阵的迹,ad−bc 是行列式。二阶矩阵的两个特征值满足
λ1+λ2=tr(A)
λ1λ2=det(A)
这两个关系很适合用来检查计算结果。
例题:求特征值和特征向量
求矩阵
A=[4213]
的特征值和特征向量。
先写出特征方程。由于
A−λI=[4−λ
结论是:沿着 [11] 的方向,矩阵把向量放大 5 倍;沿着 [1−2] 的方向,矩阵把向量放大 2 倍。
重复作用与系统演化
特征值真正有用的地方,常常不是计算一次 Av,而是理解重复作用:
xk+1=Axk
如果初始向量正好是特征向量 v,那么
x1=Av=λv
继续作用:
x2=A(λv)=λAv=λ2v
于是一般有
xk=Akv=λkv
这说明特征值把“矩阵反复乘很多次”变成了“数反复乘很多次”。如果 λ=1.2,这个方向会按 1.2k 增长;如果 λ=0.5,这个方向会按 0.5k 衰减。

重复作用下,λ=1.2 的特征方向逐步放大,λ=0.5 的分量逐步衰减,长期行为由主导方向决定。
从一个特征方向到多个分量
如果一个初始向量能写成两个特征向量的线性组合:
x0=c1v1+c2
并且
Av1=λ1v1,Av
那么
Ax0=c1λ1v1
反复作用 k 次后:
Akx0=c1λ1
这个公式解释了很多长期现象。绝对值较大的特征值对应的方向会逐渐占主导;绝对值小于 1 的方向会逐渐消失;等于 1 的方向可能保留下来。
一旦把初始状态分解到特征方向上,系统演化就变成了每个分量各自乘以 λk。这就是特征向量适合分析动态系统的原因。
例题:用特征分解看长期行为
已知矩阵 A 有两个特征向量
v1=[11],v
对应特征值分别为 λ1=5 和 λ2=2。若
x0=[41]
求 Akx0 的表达式,并说明长期方向。
先把 x0 写成特征向量的线性组合:
x
对角化的含义
如果一个 n×n 矩阵 A 有 n 个线性无关的特征向量
v1,v2,…,vn
就可以把它们放成矩阵 P 的列:
P=∣
再把对应特征值放在对角矩阵 D 的对角线上:
D=
因为每一列都满足 Avi=λivi,所以
AP=PD
若 P 可逆,则
A=PDP−1
这就是对角化。

对角化把线性变换分解为换坐标、分别缩放、换回来。
为什么对角化有用
对角矩阵很容易做高次幂:
Dk=
如果 A=PDP−1,那么
A2=(PDP−1)(PDP−1)=
中间的 P−1P 抵消。继续下去:
Ak=PDkP−1
这就是高次幂的关键公式。
对角化不是为了把矩阵写得更漂亮,而是为了让 Ak、系统演化和长期趋势可计算。它把复杂矩阵的重复作用转成几个数的幂。
例题:对角化并求高次幂
继续使用前面的矩阵
A=[4213]
我们已经求得
λ1=5,v1=[1
λ2=2,v2=[1
令
P=[111−2
因为 P 的两列线性无关,所以 P 可逆,且
A=PDP−1
于是
Ak=PDkP−1
其中
Dk=[5k0
如果只需要 Akx0,通常不必真的把 Ak 展开成一个完整矩阵。把 x0 分解成特征向量的组合,往往更省力。
什么时候可以对角化
一个 n×n 矩阵能对角化的核心条件是:能找到 n 个线性无关的特征向量。注意这里要求的是特征向量数量和线性无关性,不只是特征值数量。
常用判断可以这样记:
- 若 n×n 矩阵有 n 个互不相同的特征值,那么它一定可以对角化。
- 若有重复特征值,还要检查每个特征值对应的特征向量空间维数是否足够。
- 若特征向量不够,就不能用特征向量组成一组基,也就不能对角化。
一个不能对角化的剪切矩阵
考虑
A=[1011]
它的特征方程为
det(A−λI)=det[1−λ0
唯一特征值是 λ=1,代回去:
A−I=[0010]
方程 (A−I)v=0 给出 y=0。所以特征向量只有
v=[x0]x=0
也就是水平轴方向。二维空间需要两条线性无关的特征向量才能组成基,但这里只得到一条方向,所以不能对角化。

剪切矩阵 [[1,1],[0,1]] 的示意图:特征向量不够,不能组成一组基。
重复特征值不等于不能对角化。有些矩阵虽然有重复特征值,仍然有足够多的特征向量。真正的问题是特征向量是否够组成一组基。
主轴缩放与真实应用
特征向量常常指向“主方向”。在几何上,某些矩阵会把圆变成椭圆;椭圆的长轴和短轴方向就是最自然的缩放方向。在数据中,点云常常沿某些方向分布得更散,沿另一些方向分布得更紧,主轴也能帮助我们描述这种结构。

主轴缩放把特征方向与数据云的方差大小联系起来:第一主轴对应方差大,第二主轴对应方差小。
在本课程里,我们只把这个想法作为特征向量的直观应用来理解:矩阵可能把不同方向拉伸得不一样,而特征向量给出那些“只缩放、不混合”的方向。后续学习正交对角化、二次型和奇异值分解时,这个画面会再次出现。
一个可解释的主轴例子
如果某个对称矩阵的特征向量互相垂直,它们就像一组旋转后的坐标轴。矩阵在这组轴上分别乘以特征值。特征值越大,对应方向的伸缩越强。
例如
B=[3113]
它有两个互相垂直的特征方向:
v1=[11],v
对应特征值分别是 4 和 2。这表示沿 v1 的方向伸缩更强,沿 v2 的方向伸缩较弱。若把单位圆上的向量都送入矩阵 B,输出图形会沿 方向更长。
长期比例与稳态向量
特征值 λ=1 在动态系统里很常见。若
Pq=q
那么 q 在矩阵 P 的作用下保持不变。若 q 表示比例分布,这就叫稳态向量。

不同初始分布在转移矩阵反复作用下收敛到同一长期比例,稳态向量满足 P q = q。
例如,一个简单转移模型中,qk 表示第 k 步时人群、资金、网页访问量或概率在不同状态之间的比例。若
qk+1=Pqk
并且长期后 qk 趋近某个 q,那么这个 q 满足
Pq=q
也就是
Pq=1⋅q
所以稳态向量是特征值 1 对应的特征向量。实际应用会加入概率和归一化条件,例如各分量非负、总和为 1。
在长期比例问题中,特征向量回答“最后停在哪个比例”,特征值回答“这个方向每一步怎样变化”。当特征值是 1 时,对应方向在一步作用后保持不变。
常见误区
把特征向量当成唯一向量
若 v 是特征向量,那么任意非零倍数 cv 也是同一个特征值的特征向量:
A(cv)=cAv=cλv=λ(cv)
所以特征向量通常表示一整条方向,不是某一个固定长度的箭头。
忘记检查非零解
从
(A−λI)v=0
出发时,v=0 永远是解,但它不是特征向量。特征方程的作用就是保证还有非零解。
以为有重复特征值就一定失败
重复特征值只说明需要小心。比如单位矩阵
I=[1001]
只有一个特征值 λ=1,但每个非零向量都是特征向量,所以它当然可以对角化。剪切矩阵失败,不是因为特征值重复本身,而是因为特征向量方向不够。
练习
练习一:判断特征向量
设
A=[2013]
判断
u=[10],w=[
是否为 A 的特征向量。若是,求对应特征值。
先计算
Au=[20]=2u所以 u 是特征向量,对应特征值为 2。
再计算
练习二:求二阶矩阵的特征值
求矩阵
B=[1221]
的特征值和一组对应特征向量。
特征方程为
det(B−λI)=det[1−λ2
练习三:用对角化看高次幂
设 A 有特征向量
v1=[10],v
对应特征值分别为 4 和 21。若
x0=[32]
把 x0 写成 v1,v2 的线性组合,并求 A。
设
x0=c1v1+c
练习四:判断能否对角化
判断矩阵
C=[2012]
是否可以对角化。
特征方程为
det(C−λI)=det[2−λ0
小结
特征向量抓住矩阵作用中方向不变的部分,特征值记录沿这些方向的缩放倍数。求特征值时,把
Av=λv
改写为
(A−λI)v=0
并通过
det(A−λI)=0
寻找非零解存在的条件。
若矩阵有足够多线性无关的特征向量,就可以写成
A=PDP−1
从而得到
Ak=PDkP−1
这让矩阵高次幂、动态系统、长期比例和主轴缩放都变得可解释。对角化的核心不是符号变形,而是换到一组让矩阵“只做缩放”的坐标。