特征值、特征向量与对角化

矩阵表示线性变换。多数向量被矩阵作用后会改变长度，也会改变方向；特征向量是少数例外：它们的方向保持不变，只沿着原来的直线被拉伸、压缩或反向。

二维坐标网格中，向量 v 经矩阵 A 作用后仍与原方向共线，旁边用普通向量转向作对比。

矩阵作用后，特征向量方向不变，只被拉伸或压缩；普通向量可能转到不同方向。

这一章从这个“方向不变”的现象出发。我们会学习怎样求特征值和特征向量，怎样判断矩阵能否对角化，以及为什么对角化会让 $A^k$ 、差分方程和长期比例问题变得简单。

本章最好始终保留两个画面：一个是几何画面，特征向量沿着自己的直线运动；另一个是代数画面，矩阵在特征向量坐标里只做坐标缩放。两个画面指向同一件事。

方向不变的向量

设 $A$ 是一个方阵。如果存在非零向量 $v$ 和数 $\lambda$ ，使得

A v = \lambda v

那么 $v$ 叫作 $A$ 的特征向量， $\lambda$ 叫作对应的特征值。

这里必须要求 $v \ne 0$ 。零向量被任何矩阵作用后仍然是零向量，如果把它也算进去，定义就失去了区分能力。特征向量说的是一条真正的方向，而零向量没有方向。

特征值 $\lambda$ 描述沿这个方向发生了什么：

$\lambda > 1$ ：沿原方向放大。
$0 < \lambda < 1$ ：沿原方向压缩。
$\lambda < 0$ ：方向反过来，同时按 $|\lambda|$ 缩放。
$λ = 0$ ：这个方向被压到零向量。

特征向量不是“长度不变”的向量，而是“方向不变”的向量。长度是否改变由特征值决定。若 $\lambda=-2$ ，向量会翻到相反方向并变成原来的 2 倍，它仍然是特征向量。

一个直接例子

考虑矩阵

A= \begin{bmatrix} 3 & 0 \\ 0 & 2 \end{bmatrix}

对标准基向量 $e_1=\begin{bmatrix}1\\0\end{bmatrix}$ ，有

A e_1 = \begin{bmatrix} 3 \\ 0 \end{bmatrix} =3e_1

所以 $e_1$ 是特征向量，对应特征值为 $3$ 。同理，

A e_2 = \begin{bmatrix} 0 \\ 2 \end{bmatrix} =2e_2

所以 $e_2$ 是特征向量，对应特征值为 $2$ 。

这个矩阵很容易看懂，因为它本来就沿坐标轴分别缩放。一般矩阵的特征方向可能不是坐标轴，但目标仍然一样：找到那些被矩阵作用后不转向的直线。

从定义到特征方程

特征值和特征向量的计算从定义开始：

A v = \lambda v

把右边移到左边：

A v - \lambda v = 0

由于 $v=Iv$ ，上式可以写成

(A-\lambda I)v=0

我们要找的是非零解 $v$ 。一个齐次方程组有非零解，当且仅当系数矩阵不可逆。于是

\det(A-\lambda I)=0

这个方程叫作特征方程。先解特征方程得到特征值，再把每个特征值代回 $(A-\lambda I)v=0$ ，得到对应的特征向量。

从 Av=λv 推导到 det(A-λI)=0 的特征方程示意图，展示 A-λI 将平面压扁并产生非零解。

特征值对应 A-λI 有非零解；几何上变换把平面压扁，因此 det(A-λI)=0。

特征方程不是凭空来的。它来自“齐次方程要有非零解”这个条件。若 $A-\lambda I$ 可逆，则 $(A-\lambda I)v=0$ 只有零解，不能提供特征方向。

二阶矩阵的常用形式

设

A= \begin{bmatrix} a & b \\ c & d \end{bmatrix}

则

A-\lambda I= \begin{bmatrix} a-\lambda & b \\ c & d-\lambda \end{bmatrix}

特征方程为

\det(A-\lambda I) =(a-\lambda)(d-\lambda)-bc=0

也就是

\lambda^2-(a+d)\lambda+(ad-bc)=0

这里的 $a+d$ 是矩阵的迹， $ad-bc$ 是行列式。二阶矩阵的两个特征值满足

\lambda_1+\lambda_2=\operatorname{tr}(A)

\lambda_1\lambda_2=\det(A)

这两个关系很适合用来检查计算结果。

例题：求特征值和特征向量

求矩阵

A= \begin{bmatrix} 4 & 1 \\ 2 & 3 \end{bmatrix}

的特征值和特征向量。

先写出特征方程。由于

A-\lambda I= \begin{bmatrix} 4-\lambda & 1 \\ 2 & 3-\lambda \end{bmatrix}

结论是：沿着 $\begin{bmatrix}1\\1\end{bmatrix}$ 的方向，矩阵把向量放大 5 倍；沿着 $\begin{bmatrix}1\\-2\end{bmatrix}$ 的方向，矩阵把向量放大 2 倍。

重复作用与系统演化

特征值真正有用的地方，常常不是计算一次 $Av$ ，而是理解重复作用：

x_{k+1}=Ax_k

如果初始向量正好是特征向量 $v$ ，那么

x_1=Av=\lambda v

继续作用：

x_2=A(\lambda v)=\lambda Av=\lambda^2v

于是一般有

x_k=A^k v=\lambda^k v

这说明特征值把“矩阵反复乘很多次”变成了“数反复乘很多次”。如果 $\lambda=1.2$ ，这个方向会按 $1.2^k$ 增长；如果 $\lambda=0.5$ ，这个方向会按 $0.5^k$ 衰减。

动态系统中不同特征方向的增长与衰减

重复作用下，λ=1.2 的特征方向逐步放大，λ=0.5 的分量逐步衰减，长期行为由主导方向决定。

从一个特征方向到多个分量

如果一个初始向量能写成两个特征向量的线性组合：

x_0=c_1v_1+c_2v_2

并且

Av_1=\lambda_1v_1,\qquad Av_2=\lambda_2v_2

那么

Ax_0=c_1\lambda_1v_1+c_2\lambda_2v_2

反复作用 $k$ 次后：

A^kx_0=c_1\lambda_1^kv_1+c_2\lambda_2^kv_2

这个公式解释了很多长期现象。绝对值较大的特征值对应的方向会逐渐占主导；绝对值小于 $1$ 的方向会逐渐消失；等于 $1$ 的方向可能保留下来。

一旦把初始状态分解到特征方向上，系统演化就变成了每个分量各自乘以 $\lambda^k$ 。这就是特征向量适合分析动态系统的原因。

例题：用特征分解看长期行为

已知矩阵 $A$ 有两个特征向量

v_1= \begin{bmatrix} 1 \\ 1 \end{bmatrix}, \qquad v_2= \begin{bmatrix} 1 \\ -2 \end{bmatrix}

对应特征值分别为 $\lambda_1=5$ 和 $\lambda_2=2$ 。若

x_0= \begin{bmatrix} 4 \\ 1 \end{bmatrix}

求 $A^kx_0$ 的表达式，并说明长期方向。

先把 $x_0$ 写成特征向量的线性组合：

x_0=c_1 \begin{bmatrix} 1 \\ 1 \end{bmatrix} +c_2 \begin{bmatrix} 1 \\ -2 \end{bmatrix}

对角化的含义

如果一个 $n\times n$ 矩阵 $A$ 有 $n$ 个线性无关的特征向量

v_1,v_2,\ldots,v_n

就可以把它们放成矩阵 $P$ 的列：

P= \begin{bmatrix} | & | & & | \\ v_1 & v_2 & \cdots & v_n \\ | & | & & | \end{bmatrix}

再把对应特征值放在对角矩阵 $D$ 的对角线上：

D= \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix}

因为每一列都满足 $Av_i=\lambda_i v_i$ ，所以

AP=PD

若 $P$ 可逆，则

A=PDP^{-1}

这就是对角化。

对角化 A=PDP^-1 的三段流程图：换到特征向量坐标，沿坐标轴分别缩放，再换回普通坐标。

对角化把线性变换分解为换坐标、分别缩放、换回来。

为什么对角化有用

对角矩阵很容易做高次幂：

D^k= \begin{bmatrix} \lambda_1^k & 0 & \cdots & 0 \\ 0 & \lambda_2^k & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^k \end{bmatrix}

如果 $A=PDP^{-1}$ ，那么

A^2=(PDP^{-1})(PDP^{-1})=PD^2P^{-1}

中间的 $P^{-1}P$ 抵消。继续下去：

A^k=PD^kP^{-1}

这就是高次幂的关键公式。

对角化不是为了把矩阵写得更漂亮，而是为了让 $A^k$ 、系统演化和长期趋势可计算。它把复杂矩阵的重复作用转成几个数的幂。

例题：对角化并求高次幂

继续使用前面的矩阵

A= \begin{bmatrix} 4 & 1 \\ 2 & 3 \end{bmatrix}

我们已经求得

\lambda_1=5,\qquad v_1= \begin{bmatrix} 1 \\ 1 \end{bmatrix}

\lambda_2=2,\qquad v_2= \begin{bmatrix} 1 \\ -2 \end{bmatrix}

令

P= \begin{bmatrix} 1 & 1 \\ 1 & -2 \end{bmatrix}, \qquad D= \begin{bmatrix} 5 & 0 \\ 0 & 2 \end{bmatrix}

因为 $P$ 的两列线性无关，所以 $P$ 可逆，且

A=PDP^{-1}

于是

A^k=PD^kP^{-1}

其中

D^k= \begin{bmatrix} 5^k & 0 \\ 0 & 2^k \end{bmatrix}

如果只需要 $A^kx_0$ ，通常不必真的把 $A^k$ 展开成一个完整矩阵。把 $x_0$ 分解成特征向量的组合，往往更省力。

什么时候可以对角化

一个 $n\times n$ 矩阵能对角化的核心条件是：能找到 $n$ 个线性无关的特征向量。注意这里要求的是特征向量数量和线性无关性，不只是特征值数量。

常用判断可以这样记：

若 $n\times n$ 矩阵有 $n$ 个互不相同的特征值，那么它一定可以对角化。
若有重复特征值，还要检查每个特征值对应的特征向量空间维数是否足够。
若特征向量不够，就不能用特征向量组成一组基，也就不能对角化。

一个不能对角化的剪切矩阵

考虑

A= \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}

它的特征方程为

\det(A-\lambda I) = \det \begin{bmatrix} 1-\lambda & 1 \\ 0 & 1-\lambda \end{bmatrix} =(1-\lambda)^2=0

唯一特征值是 $\lambda=1$ ，代回去：

A-I= \begin{bmatrix} 0 & 1 \\ 0 & 0 \end{bmatrix}

方程 $(A-I)v=0$ 给出 $y=0$ 。所以特征向量只有

v= \begin{bmatrix} x \\ 0 \end{bmatrix} \qquad x\ne0

也就是水平轴方向。二维空间需要两条线性无关的特征向量才能组成基，但这里只得到一条方向，所以不能对角化。

剪切矩阵只有一个特征方向，水平向量方向保持不变，竖直方向被斜推后方向改变。

剪切矩阵 [[1,1],[0,1]] 的示意图：特征向量不够，不能组成一组基。

重复特征值不等于不能对角化。有些矩阵虽然有重复特征值，仍然有足够多的特征向量。真正的问题是特征向量是否够组成一组基。

主轴缩放与真实应用

特征向量常常指向“主方向”。在几何上，某些矩阵会把圆变成椭圆；椭圆的长轴和短轴方向就是最自然的缩放方向。在数据中，点云常常沿某些方向分布得更散，沿另一些方向分布得更紧，主轴也能帮助我们描述这种结构。

倾斜的二维数据云形成椭圆，两条正交主轴表示特征方向，旁边展示圆经矩阵变换后变成椭圆。

主轴缩放把特征方向与数据云的方差大小联系起来：第一主轴对应方差大，第二主轴对应方差小。

在本课程里，我们只把这个想法作为特征向量的直观应用来理解：矩阵可能把不同方向拉伸得不一样，而特征向量给出那些“只缩放、不混合”的方向。后续学习正交对角化、二次型和奇异值分解时，这个画面会再次出现。

一个可解释的主轴例子

如果某个对称矩阵的特征向量互相垂直，它们就像一组旋转后的坐标轴。矩阵在这组轴上分别乘以特征值。特征值越大，对应方向的伸缩越强。

例如

B= \begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix}

它有两个互相垂直的特征方向：

v_1= \begin{bmatrix} 1 \\ 1 \end{bmatrix}, \qquad v_2= \begin{bmatrix} 1 \\ -1 \end{bmatrix}

对应特征值分别是 $4$ 和 $2$ 。这表示沿 $v_1$ 的方向伸缩更强，沿 $v_2$ 的方向伸缩较弱。若把单位圆上的向量都送入矩阵 $B$ ，输出图形会沿方向更长。

长期比例与稳态向量

特征值 $\lambda=1$ 在动态系统里很常见。若

Pq=q

那么 $q$ 在矩阵 $P$ 的作用下保持不变。若 $q$ 表示比例分布，这就叫稳态向量。

马尔可夫链稳态向量作为 λ=1 特征向量的中文教学信息图

不同初始分布在转移矩阵反复作用下收敛到同一长期比例，稳态向量满足 P q = q。

例如，一个简单转移模型中， $q_k$ 表示第 $k$ 步时人群、资金、网页访问量或概率在不同状态之间的比例。若

q_{k+1}=Pq_k

并且长期后 $q_k$ 趋近某个 $q$ ，那么这个 $q$ 满足

Pq=q

也就是

Pq=1\cdot q

所以稳态向量是特征值 $1$ 对应的特征向量。实际应用会加入概率和归一化条件，例如各分量非负、总和为 $1$ 。

在长期比例问题中，特征向量回答“最后停在哪个比例”，特征值回答“这个方向每一步怎样变化”。当特征值是 $1$ 时，对应方向在一步作用后保持不变。

常见误区

把特征向量当成唯一向量

若 $v$ 是特征向量，那么任意非零倍数 $cv$ 也是同一个特征值的特征向量：

A(cv)=cAv=c\lambda v=\lambda(cv)

所以特征向量通常表示一整条方向，不是某一个固定长度的箭头。

忘记检查非零解

从

(A-\lambda I)v=0

出发时， $v=0$ 永远是解，但它不是特征向量。特征方程的作用就是保证还有非零解。

以为有重复特征值就一定失败

重复特征值只说明需要小心。比如单位矩阵

I= \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}

只有一个特征值 $\lambda=1$ ，但每个非零向量都是特征向量，所以它当然可以对角化。剪切矩阵失败，不是因为特征值重复本身，而是因为特征向量方向不够。

练习

练习一：判断特征向量

设

A= \begin{bmatrix} 2 & 1 \\ 0 & 3 \end{bmatrix}

判断

u= \begin{bmatrix} 1 \\ 0 \end{bmatrix}, \qquad w= \begin{bmatrix} 1 \\ 1 \end{bmatrix}

是否为 $A$ 的特征向量。若是，求对应特征值。

先计算

Au= \begin{bmatrix} 2 \\ 0 \end{bmatrix} =2u

所以 $u$ 是特征向量，对应特征值为 $2$ 。

再计算

练习二：求二阶矩阵的特征值

求矩阵

B= \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix}

的特征值和一组对应特征向量。

特征方程为

\det(B-\lambda I) = \det \begin{bmatrix} 1-\lambda & 2 \\ 2 & 1-\lambda \end{bmatrix} =(1-\lambda)^2-4=0

练习三：用对角化看高次幂

设 $A$ 有特征向量

v_1= \begin{bmatrix} 1 \\ 0 \end{bmatrix}, \qquad v_2= \begin{bmatrix} 1 \\ 1 \end{bmatrix}

对应特征值分别为 $4$ 和 $\frac12$ 。若

x_0= \begin{bmatrix} 3 \\ 2 \end{bmatrix}

把 $x_0$ 写成 $v_1,v_2$ 的线性组合，并求 $A^kx_0$ 。

设

x_0=c_1v_1+c_2v_2

练习四：判断能否对角化

判断矩阵

C= \begin{bmatrix} 2 & 1 \\ 0 & 2 \end{bmatrix}

是否可以对角化。

特征方程为

\det(C-\lambda I) = \det \begin{bmatrix} 2-\lambda & 1 \\ 0 & 2-\lambda \end{bmatrix} =(2-\lambda)^2=0

小结

特征向量抓住矩阵作用中方向不变的部分，特征值记录沿这些方向的缩放倍数。求特征值时，把

Av=\lambda v

改写为

(A-\lambda I)v=0

并通过

\det(A-\lambda I)=0

寻找非零解存在的条件。

若矩阵有足够多线性无关的特征向量，就可以写成

A=PDP^{-1}

从而得到

A^k=PD^kP^{-1}

这让矩阵高次幂、动态系统、长期比例和主轴缩放都变得可解释。对角化的核心不是符号变形，而是换到一组让矩阵“只做缩放”的坐标。

\lambda = 0

特征值、特征向量与对角化 | 线性代数 I：向量、矩阵与线性变换 | 自在学