Sleepyfish

Chapter3：解线性方程组的迭代法

Sun, 31 May 2026 00:00:00 GMT

概述

这一章的核心是：

对大规模、稀疏线性方程组 $Ax=b$，直接法往往代价太高，迭代法通过构造一个序列 $x^{(0)},x^{(1)},\dots$，让它逐步逼近真解 $x^*$。

迭代法要回答两个问题：

收不收敛：当 $k\to\infty$ 时，是否有 $x^{(k)}\to x^*$？
收敛多快：为了达到给定精度，要迭代多少步？

本章主要方法：

Jacobi 迭代法：每一步完全使用上一轮旧值
Gauss-Seidel 迭代法：一旦算出新分量，立刻使用新值
SOR 松弛法：在 Gauss-Seidel 的基础上引入松弛因子 $\omega$
最速下降法：把对称正定线性方程组转成二次函数极小值问题
共轭梯度法：对对称正定稀疏系统特别重要的迭代法

这一章的主线可以概括成：

Ax=b
  ↓ 改写成不动点问题
x=Mx+g
  ↓ 迭代
x^{(k+1)}=Mx^{(k)}+g
  ↓ 分析误差
x^{(k)}-x^* = M^k(x^{(0)}-x^*)
  ↓ 判断收敛
ρ(M)<1

课前过渡：条件数与迭代法动机

条件数的意义

上节课最后得到过扰动估计：若

$$ A(x+\delta x)=b+\delta b, $$

则在合适范数下有

$$ \frac{|\delta x|}{|x|} \leq |A|,|A^{-1}|\frac{|\delta b|}{|b|}. $$

定义

$$ \mathrm{cond}(A)=|A|,|A^{-1}|. $$

它表示：右端项 $b$ 的相对扰动可能被放大多少倍后传递到解 $x$ 上。

直观理解：

$b$ 往往来自测量，例如外力、载荷、边界条件
$A$ 是模型离散后得到的系数矩阵
$x$ 是真正想求的未知量
如果 $\mathrm{cond}(A)$ 很大，测量误差会被严重放大

所以条件数大的问题，本身就很难算准。

[Slides 图占位：插入【lesson4】上课手写 PPT 演示第 2-3 页，内容为 $A(x+\delta x)=b+\delta b$ 与 $\mathrm{cond}(A)=|A||A^{-1}|$ 的手写推导。]

:::WARNING 条件数大时，不要指望单纯换一个求解程序就能彻底解决问题。

可能原因有两类：

模型 / 离散 / 变量选择导致矩阵写得不好
原问题本身就是病态问题，任何合理建模都会导致接近奇异的矩阵

第一类可以尝试换模型、换变量、重新尺度化；第二类需要正则化、约束、先验信息或更换问题表述。 :::

Hilbert 矩阵：病态矩阵的经典例子

Hilbert 矩阵定义为

$$ H_{ij}=\frac{1}{i+j-1},\qquad 1\le i,j\le n. $$

三阶 Hilbert 矩阵为

$$ H_3=\begin{bmatrix} 1 & \frac12 & \frac13\ \frac12 & \frac13 & \frac14\ \frac13 & \frac14 & \frac15 \end{bmatrix}. $$

四阶 Hilbert 矩阵为

$$ H_4=\begin{bmatrix} 1 & \frac12 & \frac13 & \frac14\ \frac12 & \frac13 & \frac14 & \frac15\ \frac13 & \frac14 & \frac15 & \frac16\ \frac14 & \frac15 & \frac16 & \frac17 \end{bmatrix}. $$

MATLAB 中可以直接用：

hilb(3)
hilb(4)
cond(hilb(4))
cond(hilb(10))

课堂演示中的数量级：

$\mathrm{cond}(H_3)\approx 5.24\times 10^2$
$\mathrm{cond}(H_4)\approx 1.55\times 10^4$
$\mathrm{cond}(H_{10})\approx 1.60\times 10^{13}$

这说明条件数增长极快。双精度浮点数大约只有 $15\sim16$ 位有效数字，若误差被放大 $10^{13}$ 倍，最后可能只剩下很少几位可信数字。

[Slides 图占位：插入【lesson4】上课手写 PPT 演示第 7、11、12 页，内容为 Hilbert 矩阵定义、$H_3$ 书写、MATLAB cond(hilb(4)) 与 cond(hilb(10)) 输出。]

非方阵方程组与线性最小二乘

前面主要讨论 $A$ 是方阵时的 $Ax=b$。实际中也常见非方阵：

方程数多于未知数：超定方程组
方程数少于未知数：欠定方程组

课堂举了线性回归的例子。

假设有 12 个月销量数据，希望拟合直线

$$ y_i=ax_i+b, qquad i=1,2,\dots,12. $$

未知量只有两个：

$$ \begin{bmatrix}a\ b\end{bmatrix}, $$

但方程有 12 个：

$$ \begin{cases} y_1=a\cdot 1+b,\ y_2=a\cdot 2+b,\ \cdots\ y_{12}=a\cdot 12+b. \end{cases} $$

写成矩阵形式：

$$ A=\begin{bmatrix} 1&1\ 2&1\ \vdots&\vdots\ 12&1 \end{bmatrix},\qquad x=\begin{bmatrix}a\ b\end{bmatrix},\qquad b=\begin{bmatrix}y_1\ y_2\ \vdots\ y_{12}\end{bmatrix}. $$

通常没有精确解，于是求最小二乘解：

$$ \min_x|Ax-b|_2^2. $$

正规方程为

$$ A^TAx=A^Tb. $$

若 $A^TA$ 可逆，则

$$ x=(A^TA)^{-1}A^Tb. $$

这也可以看成广义逆的一种形式。

:::WARNING 正规方程是最小二乘的直接做法，思路简单，但稳定性不够好。

原因是 $A^TA$ 会放大条件数问题。实际计算中更常用 QR 分解或 SVD，这部分后续章节会继续讨论。 :::

为什么要学迭代法

第二章的直接法，例如 Gaussian 消去、LU 分解，理论上可以给出精确解。问题在于：

计算量大：一般规模下复杂度约为 $O(n^3)$
会破坏稀疏性：原来大量为零的元素，在消去过程中可能变成非零元素
大规模稀疏系统无法承受填充：例如流体计算、结构力学、偏微分方程离散后，矩阵规模可能极大

稀疏矩阵的核心价值在于“只存非零元”。如果直接法造成大量 fill-in，就会让存储量和计算量暴涨。

迭代法的思想是：

不对矩阵做大规模分解，尽量保留 $A$ 的稀疏结构，只通过矩阵-向量运算逐步逼近解。

迭代法的一般形式

从方程组到不动点迭代

设线性方程组

$$ Ax=b. $$

若能将它等价改写为

$$ x=Mx+g, $$

则可以从任意初值 $x^{(0)}$ 出发，构造迭代序列：

$$ x^{(k+1)}=Mx^{(k)}+g,\qquad k=0,1,2,\dots $$

这里：

$M$ 称为 迭代矩阵
$g$ 是常向量
$x^{(0)}$ 是初始猜测

若 $x^{(k)}\to x^$，并且 $x^=Mx^+g$，那么 $x^$ 就是原方程组的解。

:::TIP 初值 $x^{(0)}$ 理论上可以任取。

实际计算中：

若有物理经验，尽量取接近真实解的初值
全零初值很常见，但有时过于特殊
随机初值或全一初值也可以作为尝试 :::

误差递推

设真解为 $x^*$，满足

$$ x^=Mx^+g. $$

迭代式减去不动点方程：

$$ x^{(k+1)}-x^=M(x^{(k)}-x^). $$

递推得到

$$ x^{(k)}-x^=M^k(x^{(0)}-x^). $$

所以迭代能否收敛，关键看

$$ M^k\to 0. $$

如果存在某个矩阵范数使

$$ |M|<1, $$

则

$$ |x^{(k)}-x^|\le |M|^k|x^{(0)}-x^|\to 0. $$

这给出一个很直观的充分条件。

Jacobi 迭代法

分量形式

设

$$ A=(a_{ij})_{n\times n},\qquad b=(b_1,b_2,\dots,b_n)^T. $$

第 $i$ 个方程为

$$ a_{i1}x_1+\cdots+a_{ii}x_i+\cdots+a_{in}x_n=b_i. $$

若 $a_{ii}\ne 0$，把 $x_i$ 解出来：

$$ x_i=\frac{1}{a_{ii}}\left(b_i-\sum_{j\ne i}a_{ij}x_j\right). $$

Jacobi 迭代的做法是：右端全部使用上一轮旧值。

$$ x_i^{(k+1)}=\frac{1}{a_{ii}}\left(b_i-\sum_{j\ne i}a_{ij}x_j^{(k)}\right), \qquad i=1,2,\dots,n. $$

也可以写成

$$ x_i^{(k+1)}=-\frac{1}{a_{ii}}\sum_{j\ne i}a_{ij}x_j^{(k)}+\frac{b_i}{a_{ii}}. $$

矩阵形式

记

$$ D=\mathrm{diag}(a_{11},a_{22},\dots,a_{nn}). $$

则 Jacobi 迭代为

$$ x^{(k+1)}=(I-D^{-1}A)x^{(k)}+D^{-1}b. $$

也就是

$$ M_J=I-D^{-1}A, \qquad g_J=D^{-1}b. $$

若把矩阵分裂写成

$$ A=D-L-U, $$

其中 $L$ 是严格下三角部分取负，$U$ 是严格上三角部分取负，则

$$ x^{(k+1)}=D^{-1}(L+U)x^{(k)}+D^{-1}b. $$

:::NOTE Jacobi 的特点：

每个分量 $x_i^{(k+1)}$ 都只依赖上一轮 $x^{(k)}$
各分量之间可以并行计算
需要同时保存旧向量和新向量
收敛速度通常较慢 :::

算法步骤

输入：$A,b,x^{(0)}$，最大迭代次数 $N$，容忍精度 tol。

对 $k=0,1,2,\dots,N-1$
对 $i=1,2,\dots,n$，计算

$$ x_i^{(k+1)}=\frac{1}{a_{ii}}\left(b_i-\sum_{j\ne i}a_{ij}x_j^{(k)}\right). $$

计算残差

$$ r^{(k+1)}=b-Ax^{(k+1)}. $$

若 $|r^{(k+1)}|<\text{tol}$，停止。

:::WARNING 使用 Jacobi 前至少要保证 $a_{ii}\ne 0$。若对角元为零，可以尝试交换方程顺序。方程顺序改变后，迭代矩阵也会改变，收敛性可能随之改变。 :::

例 1：Jacobi 迭代求三元方程组

求解

$$ \begin{cases} 10x_1-x_2-2x_3=72,\ -x_1+10x_2-2x_3=83,\ -x_1-x_2+5x_3=42. \end{cases} $$

解出各分量：

$$ \begin{cases} x_1^{(k+1)}=0.1x_2^{(k)}+0.2x_3^{(k)}+7.2,\ x_2^{(k+1)}=0.1x_1^{(k)}+0.2x_3^{(k)}+8.3,\ x_3^{(k+1)}=0.2x_1^{(k)}+0.2x_2^{(k)}+8.4. \end{cases} $$

取

$$ x^{(0)}=(0,0,0)^T. $$

第一步：

$$ x^{(1)}=(7.2,8.3,8.4)^T. $$

第二步：

$$ \begin{aligned} x_1^{(2)}&=0.1\times 8.3+0.2\times 8.4+7.2=9.71,\ x_2^{(2)}&=0.1\times 7.2+0.2\times 8.4+8.3=10.70,\ x_3^{(2)}&=0.2\times 7.2+0.2\times 8.3+8.4=11.50. \end{aligned} $$

继续迭代可得：

$k$	$x_1^{(k)}$	$x_2^{(k)}$	$x_3^{(k)}$
0	0.0000	0.0000	0.0000
1	7.2000	8.3000	8.4000
2	9.7100	10.7000	11.5000
3	10.5700	11.5700	12.4820
4	10.8535	11.8534	12.8282
5	10.9510	11.9510	12.9414
6	10.9834	11.9834	12.9804
7	10.9944	11.9981	12.9934
8	10.9981	11.9941	12.9978
9	10.9994	11.9994	12.9992

精确解为

$$ x^*=(11,12,13)^T. $$

可以看到，Jacobi 迭代逐渐靠近精确解。

Gauss-Seidel 迭代法

Jacobi 的问题在于：计算 $x_2^{(k+1)}$ 时，明明 $x_1^{(k+1)}$ 已经算出来了，却仍然使用旧值 $x_1^{(k)}$。

Gauss-Seidel 的思想是：

只要新值已经算出，后面的分量立刻使用新值。

分量形式

Gauss-Seidel 迭代为

$$ x_i^{(k+1)}=\frac{1}{a_{ii}}\left( b_i- \sum_{j=1}^{i-1}a_{ij}x_j^{(k+1)}- \sum_{j=i+1}^{n}a_{ij}x_j^{(k)} \right). $$

这里：

$j<i$ 的分量已经更新，用 $x_j^{(k+1)}$
$j>i$ 的分量尚未更新，用 $x_j^{(k)}$

矩阵形式

仍记

$$ A=D-L-U. $$

则

$$ (D-L)x^{(k+1)}=Ux^{(k)}+b. $$

因此

$$ x^{(k+1)}=(D-L)^{-1}Ux^{(k)}+(D-L)^{-1}b. $$

即

$$ M_{GS}=(D-L)^{-1}U, \qquad g_{GS}=(D-L)^{-1}b. $$

:::TIP Gauss-Seidel 的两个优势：

通常比 Jacobi 快
可以原地更新，只需要保存一个向量 $x$

但它不保证总是比 Jacobi 收敛，也存在 Jacobi 收敛而 Gauss-Seidel 发散的例子。 :::

例 2：Gauss-Seidel 迭代继续求例 1

仍解

$$ \begin{cases} 10x_1-x_2-2x_3=72,\ -x_1+10x_2-2x_3=83,\ -x_1-x_2+5x_3=42. \end{cases} $$

取 $x^{(0)}=(0,0,0)^T$。

第一步：

$$ x_1^{(1)}=\frac{1}{10}(72)=7.2000. $$

计算 $x_2^{(1)}$ 时已经使用新值 $x_1^{(1)}$：

$$ x_2^{(1)}=\frac{1}{10}(x_1^{(1)}+2x_3^{(0)}+83) =\frac{1}{10}(7.2000+83)=9.0200. $$

计算 $x_3^{(1)}$ 时继续使用新值 $x_1^{(1)},x_2^{(1)}$：

$$ x_3^{(1)}=\frac{1}{5}(x_1^{(1)}+x_2^{(1)}+42) =\frac{1}{5}(7.2000+9.0200+42)=11.6440. $$

迭代结果：

$k$	$x_1^{(k)}$	$x_2^{(k)}$	$x_3^{(k)}$
0	0.0000	0.0000	0.0000
1	7.2000	9.0200	11.6440
2	10.4308	11.6719	12.8050
3	10.9313	11.9572	12.9778
4	10.9913	11.9947	12.9972
5	10.9989	11.9993	12.9996
6	10.9999	11.9999	13.0000

和 Jacobi 相比，Gauss-Seidel 在这个例子中明显更快。

松弛法与 SOR 迭代

从 Gauss-Seidel 到松弛修正

Gauss-Seidel 每一步会给出一个修正量

$$ \Delta x=x_{GS}^{(k+1)}-x^{(k)}. $$

松弛法把修正量乘上一个参数 $\omega$：

$$ x^{(k+1)}=x^{(k)}+\omega\Delta x. $$

也就是：

$\omega=1$：普通 Gauss-Seidel
$0<\omega<1$：低松弛，步子变小
$1<\omega<2$：超松弛，即 SOR

SOR 全称为 Successive Over-Relaxation。

SOR 的分量形式

$$ x_i^{(k+1)}=(1-\omega)x_i^{(k)}+ \frac{\omega}{a_{ii}} \left( b_i- \sum_{j=1}^{i-1}a_{ij}x_j^{(k+1)}- \sum_{j=i+1}^{n}a_{ij}x_j^{(k)} \right). $$

这可以理解成：

新值 = 旧值 + ω × Gauss-Seidel 修正量

SOR 的矩阵形式

仍设

$$ A=D-L-U. $$

SOR 迭代可以写成

$$ (D-\omega L)x^{(k+1)}=[(1-\omega)D+\omega U]x^{(k)}+\omega b. $$

所以迭代矩阵为

$$ M_\omega=(D-\omega L)^{-1}[(1-\omega)D+\omega U]. $$

右端项为

$$ g_\omega=\omega(D-\omega L)^{-1}b. $$

例 3：SOR 迭代

取

$$ \omega=1.4, \qquad x^{(0)}=(1,1,1)^T, $$

求解

$$ \begin{cases} 2x_1-x_2=1,\ -x_1+2x_2-x_3=0,\ -x_2+2x_3=1.8. \end{cases} $$

由 SOR 公式得

$$ \begin{cases} x_1^{(k+1)}=-0.4x_1^{(k)}+0.7(1+x_2^{(k)}),\ x_2^{(k+1)}=-0.4x_2^{(k)}+0.7(x_1^{(k+1)}+x_3^{(k)}),\ x_3^{(k+1)}=-0.4x_3^{(k)}+0.7(1.8+x_2^{(k+1)}). \end{cases} $$

第一步：

$$ \begin{aligned} x_1^{(1)}&=-0.4+0.7(1+1)=1,\ x_2^{(1)}&=-0.4+0.7(1+1)=1,\ x_3^{(1)}&=-0.4+0.7(1.8+1)=1.56. \end{aligned} $$

继续迭代：

$k$	$x_1^{(k)}$	$x_2^{(k)}$	$x_3^{(k)}$
0	1.0000	1.0000	1.0000
1	1.0000	1.0000	1.5600
2	1.0000	1.3920	1.6184
3	1.2744	1.4682	1.6404
4	1.2180	1.4136	1.5934
5	1.2023	1.3916	1.6068
6	1.1932	1.4034	1.6007
7	1.2051	1.4027	1.6016
8	1.1999	1.4000	1.5994
9	1.2000	1.3996	1.6001

精确解为

$$ x^*=(1.2,1.4,1.6)^T. $$

第 9 步已经非常接近真解。

松弛因子如何选

SOR 的效果高度依赖 $\omega$。

一般事实：

收敛必要条件：$0<\omega<2$
当 $A$ 为对称正定矩阵时，SOR 在 $0<\omega<2$ 下收敛
$\omega=1$ 退化为 Gauss-Seidel
$\omega$ 太接近 $2$ 可能导致振荡或发散

当 $A$ 是某些标准三对角矩阵时，可以估计最佳松弛因子：

$$ \omega_{\mathrm{opt}}

\frac{2}{1+\sqrt{1-\rho(B)^2}}, $$

其中 $B$ 是 Jacobi 迭代矩阵。

:::NOTE 实际计算中，$\omega$ 往往靠问题结构和试算选择。

老师课堂给出的经验是：大规模问题中 $\omega$ 常常会取得比较接近 $2$，例如 $1.9$ 以上，但必须小于 $2$，并且要结合具体矩阵结构试算。 :::

迭代法的收敛条件

谱半径

设 $A$ 的特征值为

$$ \lambda_1,\lambda_2,\dots,\lambda_n. $$

定义矩阵 $A$ 的 谱半径 为

$$ \rho(A)=\max_{1\le i\le n}|\lambda_i|. $$

谱半径和矩阵范数有重要关系：

$$ \rho(A)\le |A|. $$

并且对任意 $\varepsilon>0$，存在某种矩阵范数，使

$$ |A|\le \rho(A)+\varepsilon. $$

因此，谱半径是判断迭代矩阵长期作用效果的核心量。

一般迭代法的充要条件

对迭代

$$ x^{(k+1)}=Mx^{(k)}+g, $$

若对任意初值 $x^{(0)}$ 都收敛到唯一不动点，则充要条件为

$$ \rho(M)<1. $$

理由很直接：

$$ x^{(k)}-x^=M^k(x^{(0)}-x^). $$

所以必须有

$$ M^k\to 0. $$

而矩阵幂 $M^k\to 0$ 的充要条件就是

$$ \rho(M)<1. $$

:::TIP 实用判断层次：

若能算出 $\rho(M)$，看 $\rho(M)<1$
若不方便算谱半径，可以找一个范数验证 $|M|<1$
$|M|<1$ 是充分条件，$\rho(M)<1$ 是充要条件 :::

常用判别条件

设 $Ax=b$。

严格对角占优

若对每一行都有

$$ |a_{ii}|>\sum_{j\ne i}|a_{ij}|, $$

则称 $A$ 严格对角占优。

若 $A$ 严格对角占优，则 Jacobi 与 Gauss-Seidel 迭代均收敛。

不可约弱对角占优

若

$$ |a_{ii}|\ge \sum_{j\ne i}|a_{ij}| $$

对所有行成立，并且至少有一行严格成立，同时矩阵不可约，则称为不可约弱对角占优。

在这种情况下，Jacobi 与 Gauss-Seidel 也有收敛性保证。

对称正定

若 $A$ 是对称正定矩阵，则：

Gauss-Seidel 迭代收敛
SOR 迭代在 $0<\omega<2$ 时收敛

:::WARNING 对称正定不能直接保证 Jacobi 一定收敛。

判断 Jacobi 时仍要看对应迭代矩阵 $M_J$ 的谱半径，或者使用对角占优等充分条件。 :::

方程顺序会影响收敛

同一个方程组，如果交换方程顺序，解不变，但迭代矩阵会改变。

所以：

直接法通常不太关心方程顺序对收敛的影响
迭代法的收敛性可能因方程顺序改变而改变

实际写程序前，常常会通过重排、预处理、尺度化来改善迭代性质。

停机准则：不要只看前后两步差

教材给出了误差估计：若 $|M|<1$，则

$$ |x^{(k)}-x^*|\le \frac{|M|}{1-|M|}|x^{(k)}-x^{(k-1)}|. $$

因此在 $|M|$ 不太接近 1 时，可以用

$$ |x^{(k)}-x^{(k-1)}|<\varepsilon $$

作为停止依据。

但老师课堂特别强调：实际编程时，不应只用前后两步差作为停机准则。

更可靠的做法是看残差：

$$ r^{(k)}=b-Ax^{(k)}. $$

常用停机准则：

$$ |r^{(k)}|<\text{tol}, $$

或相对残差：

$$ \frac{|b-Ax^{(k)}|}{|b|}<\text{tol}. $$

:::WARNING 前后两步差很小，只说明迭代序列局部变化很慢。

如果收敛非常慢，$x^{(k)}$ 和 $x^{(k-1)}$ 可能已经很接近，但它们离真解还很远。

实际程序建议同时设置：

残差阈值 tol
最大迭代次数 max_iter
必要时记录残差曲线 :::

最速下降法

对称正定方程组与二次函数

设 $A$ 对称正定。

考虑二次函数

$$ \varphi(x)=\frac12x^TAx-b^Tx. $$

它的梯度为

$$ \nabla\varphi(x)=Ax-b. $$

令梯度为零：

$$ \nabla\varphi(x)=0 \quad\Longleftrightarrow\quad Ax=b. $$

由于 $A$ 对称正定，$\varphi(x)$ 是严格凸二次函数，存在唯一全局极小值点。

所以求解 $Ax=b$ 等价于求

$$ \min_x \varphi(x). $$

负梯度方向

在点 $x^{(k)}$，下降最快方向是负梯度方向：

$$ -\nabla\varphi(x^{(k)})=b-Ax^{(k)}. $$

记残差

$$ r^{(k)}=b-Ax^{(k)}. $$

则最速下降法沿 $r^{(k)}$ 前进：

$$ x^{(k+1)}=x^{(k)}+\alpha_k r^{(k)}. $$

这里 $\alpha_k$ 是步长。

[Slides 图占位：插入课堂手写示意图：对称正定二次函数像一个碗，从 $x^{(0)}$ 沿负梯度方向下降。]

最优步长

最速下降法每一步选择当前方向上的最佳步长：

$$ \alpha_k=\arg\min_{\alpha}\varphi(x^{(k)}+\alpha r^{(k)}). $$

代入并对 $\alpha$ 求导，可得

$$ \alpha_k= \frac{(r^{(k)},r^{(k)})}{(Ar^{(k)},r^{(k)})}. $$

因此迭代公式为

$$ x^{(k+1)}= x^{(k)}+ \frac{(r^{(k)},r^{(k)})}{(Ar^{(k)},r^{(k)})}r^{(k)}. $$

:::NOTE 这里的内积为

$$ (x,y)=x^Ty=\sum_{i=1}^n x_iy_i. $$ :::

为什么最速下降可能很慢

若 $A$ 的最大特征值和最小特征值分别为

$$ \lambda_{\max},\lambda_{\min}, $$

则最速下降的收敛速度受

$$ \frac{\lambda_{\max}-\lambda_{\min}}{\lambda_{\max}+\lambda_{\min}} $$

控制。

若 $\lambda_{\max}\gg\lambda_{\min}$，这个比例接近 1，收敛会很慢。

几何图像：

如果等高线接近圆形，负梯度方向几乎直指极小值
如果等高线是很扁的椭圆，最速下降会在谷底两侧来回“之”字形摆动

[Slides 图占位：插入课堂手写示意图：椭圆等高线、负梯度方向与最速下降的锯齿形路径。]

这解释了为什么最速下降法虽然简单，但实际大规模计算中常常不够快。

共轭梯度法

$A$-共轭方向

最速下降法每一步都沿当前负梯度方向走，容易在狭长椭圆等高线中来回摆动。

共轭梯度法的改进思想是：选择一组关于 $A$ 共轭的搜索方向。

若

$$ d_i^TAd_j=0, \qquad i\ne j, $$

则称 $d_i,d_j$ 关于 $A$ 共轭，也叫 $A$-正交。

当 $A$ 对称正定时，

$$ (x,y)_A=x^TAy $$

可以看成一种新的内积。

所以 $A$-共轭本质上是在被 $A$ 改变尺度后的空间里正交。

:::TIP 普通正交：

$$ d_i^Td_j=0. $$

$A$-共轭：

$$ d_i^TAd_j=0. $$

可以把 $A$ 理解成把空间“压扁 / 拉伸”的尺度矩阵。 :::

算法公式

共轭梯度法适用于 $A$ 对称正定。

取初值 $x^{(0)}$，令

$$ r^{(0)}=b-Ax^{(0)}, \qquad d^{(0)}=r^{(0)}. $$

第 $k$ 步：

$$ \alpha_k=\frac{(r^{(k)},r^{(k)})}{(d^{(k)},Ad^{(k)})}, $$

$$ x^{(k+1)}=x^{(k)}+\alpha_k d^{(k)}, $$

$$ r^{(k+1)}=r^{(k)}-\alpha_kAd^{(k)}, $$

$$ \beta_k=\frac{(r^{(k+1)},r^{(k+1)})}{(r^{(k)},r^{(k)})}, $$

$$ d^{(k+1)}=r^{(k+1)}+\beta_kd^{(k)}. $$

这是常用实现形式。

课本也写成等价形式：

$$ \beta_{k-1}=-\frac{(r^{(k)},Ad^{(k-1)})}{(d^{(k-1)},Ad^{(k-1)})}, $$

$$ d^{(k)}=r^{(k)}+\beta_{k-1}d^{(k-1)}, $$

$$ \lambda_k=\frac{(r^{(k)},d^{(k)})}{(d^{(k)},Ad^{(k)})}, $$

$$ x^{(k+1)}=x^{(k)}+\lambda_kd^{(k)}. $$

:::NOTE 共轭梯度法的重要性质：

精确算术下，$n$ 维对称正定系统最多 $n$ 步得到精确解
实际浮点计算中受舍入误差影响，通常作为迭代法使用
每步主要需要矩阵-向量乘 $Ad^{(k)}$，适合大规模稀疏矩阵 :::

例 4：共轭梯度法两步得到精确解

求解

$$ \begin{cases} 3x_1-x_2=2,\ -x_1+x_2=0. \end{cases} $$

即

$$ A=\begin{bmatrix}3&-1\-1&1\end{bmatrix}, \qquad b=\begin{bmatrix}2\0\end{bmatrix}. $$

取

$$ x^{(0)}=(0,0)^T. $$

于是

$$ r^{(0)}=b-Ax^{(0)}=(2,0)^T, \qquad d^{(0)}=(2,0)^T. $$

第一步：

$$ \alpha_0=\frac{(r^{(0)},d^{(0)})}{(d^{(0)},Ad^{(0)})}=\frac{4}{12}=\frac13. $$

$$ x^{(1)}=x^{(0)}+\alpha_0d^{(0)}= (0,0)^T+\frac13(2,0)^T= \left(\frac23,0\right)^T. $$

残差：

$$ r^{(1)}=b-Ax^{(1)}=\left(0,\frac23\right)^T. $$

计算共轭修正：

$$ \beta_0=-\frac{(r^{(1)},Ad^{(0)})}{(d^{(0)},Ad^{(0)})} =\frac19. $$

$$ d^{(1)}=r^{(1)}+\beta_0d^{(0)} =\left(0,\frac23\right)^T+\frac19(2,0)^T =\left(\frac29,\frac23\right)^T. $$

第二步：

$$ \alpha_1=rac{(r^{(1)},d^{(1)})}{(d^{(1)},Ad^{(1)})} =\frac32. $$

$$ x^{(2)}=x^{(1)}+\alpha_1d^{(1)} =\left(\frac23,0\right)^T+rac32\left(\frac29,\frac23\right)^T =(1,1)^T. $$

因此两步得到精确解：

$$ x^*=(1,1)^T. $$

应用实例：Poisson 方程与静电场

课本最后给出一个静电场问题。

设平面上有一对正负电荷，它们周围形成电场。电势 $u(x,y)$ 满足 Poisson 方程：

$$ \frac{\partial^2u}{\partial x^2}+\frac{\partial^2u}{\partial y^2} =-\frac{\rho}{\varepsilon_p}. $$

其中：

$\rho(x,y)$ 是电荷密度
$\varepsilon_p$ 是介质电容常数
边界条件为 $u=0$

用二阶中心差分离散二阶导数：

$$ \frac{u_{i+1,j}-2u_{i,j}+u_{i-1,j}}{h^2} + \frac{u_{i,j+1}-2u_{i,j}+u_{i,j-1}}{h^2} =-\frac{\rho_{ij}}{\varepsilon_p}. $$

整理得五点差分格式：

$$ u_{i+1,j}+u_{i-1,j}+u_{i,j+1}+u_{i,j-1}-4u_{i,j} =h^2\left(-\frac{\rho}{\varepsilon_p}\right)_{ij}. $$

把所有内部网格点未知量排成向量 $u$，就得到一个线性方程组：

$$ Au=b. $$

这个矩阵 $A$ 具有典型结构：

规模为 $n^2\times n^2$
大部分元素为 0
块三对角结构
每个块内部也是三对角结构

因此它非常适合使用迭代法，尤其是 SOR。

课本例子中使用 SOR 计算，取 $n=30$ 时，最优松弛因子约为

$$ \omega=1.811, $$

误差精度为

$$ \varepsilon=10^{-5}, $$

迭代约 70 步得到收敛结果。

[图占位：插入课本图 3-1，$n=30$ 时电位势数值解曲面。]

[图占位：插入课本图 3-2，$n=100$ 时电位势数值解曲面。]

这个例子说明：

偏微分方程离散后通常得到大规模稀疏线性系统。直接法容易破坏稀疏性，迭代法能够利用稀疏结构。

本章知识框架

线性方程组 Ax=b
│
├─ 直接法局限
│  ├─ O(n^3) 代价高
│  ├─ 稀疏矩阵会 fill-in
│  └─ 大规模 PDE 离散系统难以直接分解
│
├─ 一般迭代格式
│  ├─ x = Mx + g
│  ├─ x^{(k+1)} = Mx^{(k)} + g
│  ├─ e^{(k)} = M^k e^{(0)}
│  └─ 收敛充要条件：ρ(M)<1
│
├─ 基本迭代法
│  ├─ Jacobi：全用旧值，可并行，慢
│  ├─ Gauss-Seidel：用最新值，可原地更新
│  └─ SOR：引入松弛因子 ω，加速 GS
│
├─ 收敛判据
│  ├─ 谱半径 ρ(M)<1
│  ├─ 严格对角占优
│  ├─ 不可约弱对角占优
│  └─ 对称正定：GS 收敛，SOR 在 0<ω<2 收敛
│
├─ 停机准则
│  ├─ 理论上可估计 ||x^{(k)}-x^*||
│  ├─ 实际更推荐残差 ||b-Ax^{(k)}||
│  └─ 同时设置最大迭代次数
│
└─ 对称正定系统的优化观点
   ├─ Ax=b ⇔ min 1/2 x^T A x - b^T x
   ├─ 最速下降法：沿负梯度方向
   └─ 共轭梯度法：沿 A-共轭方向，适合大规模稀疏 SPD 系统

这一章最重要的理解：

迭代法不是“精确消元”，而是构造一个不断改进的近似解序列。它牺牲有限步精确性，换取对大规模稀疏问题的可计算性。

Chapter2：解线性方程组的直接方法

Sat, 30 May 2026 00:00:00 GMT

概述

这一章的核心是：

如何用有限次加、减、乘、除，把线性方程组

$$ Ax=b $$

解出来，并尽量让计算过程稳定、可编程、可复用。

这一章和下一章都围绕线性方程组展开：

Chapter 2：直接方法
- 有限步内把方程组化成容易解的形式
- 代表方法：Gauss 消去法、主元素法、LU 分解、Cholesky 分解
Chapter 3：迭代方法
- 从初值开始逐步逼近真解
- 适合更大规模、更稀疏的问题

这章最重要的思想链条是：

线性方程组  →  消元  →  上三角方程组  →  回代
              ↓
          初等行变换
              ↓
          LU 分解 / PA = LU
              ↓
       多个右端项时可重复使用分解结果

直接方法的目标不只是“会手算”，更重要的是：

程序怎么写
运算量是多少
舍入误差会不会被放大
矩阵结构能不能利用
同一个 $A$、不同右端项 $b$ 时能不能复用已有计算

线性方程组与直接方法

一般线性方程组写成：

$$ \begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=b_1,\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n=b_2,\ \cdots\ a_{n1}x_1+a_{n2}x_2+\cdots+a_{nn}x_n=b_n. \end{cases} $$

矩阵形式为：

$$ Ax=b, $$

其中

$$ A=(a_{ij})_{n\times n},\qquad x=(x_1,x_2,\dots,x_n)^T,\qquad b=(b_1,b_2,\dots,b_n)^T. $$

如果 $\det(A)\ne 0$，方程组有唯一解。

为什么不用 Cramer 法则

Cramer 法则给出了解析表达：

$$ x_i=\frac{\det(A_i)}{\det(A)}, $$

其中 $A_i$ 是把 $A$ 的第 $i$ 列替换成 $b$ 后得到的矩阵。

但它在数值计算中基本不可用，主要原因是：

行列式展开会产生阶乘级别的计算量
$n!$ 增长极快，远大于多项式复杂度
实际计算中还会伴随大量舍入误差

所以 Cramer 法则适合说明理论存在性，不适合真正写程序求解大规模线性方程组。

直接方法的基本想法

直接方法的核心思路：

通过等价变换，把原方程组变成容易解的方程组
最典型的目标形式是上三角方程组
再用回代得到所有未知量

也就是：

Ax=b
  ↓ 消元
Ux=c
  ↓ 回代
x

其中 $U$ 是上三角矩阵。

:::TIP 消元过程不能改变方程组的解。
从方程组角度看，它是“某一行减去另一行的倍数”；从矩阵角度看，它是左乘初等行变换矩阵。 :::

工程问题中的矩阵规模与稀疏性

老师上课举了一个很重要的工程直观：

如果要计算一个飞行器、炮弹或流场周围每个网格点上的物理量，最终往往也会落到某种线性方程组：

$$ Ax=b. $$

例如在 $1\text{m}\times1\text{m}\times1\text{m}$ 的区域内，如果空间步长取 $1\text{mm}$，单个标量未知量的网格点数量已经达到约

$$ 1000^3=10^9. $$

这意味着未知量可能达到十亿量级。若矩阵是满矩阵，存储和计算都很难承受。

但真实物理模型往往有局部性：

一个网格点通常只和附近网格点强相关
很远处的点对它的直接影响可忽略
于是矩阵中大量元素为 $0$

这种矩阵叫 稀疏矩阵（sparse matrix）。

在一维局部相邻作用模型中，矩阵常常呈现三对角结构；二维、三维中也会出现带状或稀疏结构。

配图占位：插入 lesson2 手写 PPT 中“网格点局部耦合导致稀疏矩阵 / 三对角矩阵”的示意图。

Gauss 消去法

基本消元过程

以第 $k$ 步为例，假设当前主元为 $a_{kk}^{(k)}$，希望消去第 $k$ 列中 $k$ 行以下的元素。

对 $i=k+1,k+2,\dots,n$，令

$$ l_{ik}=\frac{a_{ik}^{(k)}}{a_{kk}^{(k)}}. $$

然后做行变换：

$$ \text{第 }i\text{ 行}\leftarrow \text{第 }i\text{ 行}-l_{ik}\cdot \text{第 }k\text{ 行}. $$

于是有

$$ a_{ij}^{(k+1)}=a_{ij}^{(k)}-l_{ik}a_{kj}^{(k)}, \qquad j=k+1,k+2,\dots,n, $$

以及右端项

$$ b_i^{(k+1)}=b_i^{(k)}-l_{ik}b_k^{(k)}. $$

经过 $n-1$ 轮消元后，原方程组化为上三角方程组：

$$ Ux=c. $$

回代

上三角方程组形如：

$$ \begin{cases} u_{11}x_1+u_{12}x_2+\cdots+u_{1n}x_n=c_1,\ u_{22}x_2+\cdots+u_{2n}x_n=c_2,\ \cdots\ u_{nn}x_n=c_n. \end{cases} $$

先由最后一行得到

$$ x_n=\frac{c_n}{u_{nn}}, $$

再依次向上求：

$$ x_k=\frac{c_k-\sum_{j=k+1}^n u_{kj}x_j}{u_{kk}}, \qquad k=n-1,n-2,\dots,1. $$

这一步叫 回代（back substitution）。

运算量

Gauss 消去的主要计算量来自消元。

粗略看：

$$ (n-1)^2+(n-2)^2+\cdots+1^2=O(n^3). $$

回代的计算量为

$$ 1+2+\cdots+(n-1)=O(n^2). $$

因此整体复杂度为

$$ O(n^3). $$

:::TIP Gauss 消去法比 Cramer 法则实用得多：
Cramer 法则接近阶乘级复杂度，Gauss 消去法是三次多项式复杂度。 :::

例：三元线性方程组的消元

课本例子：

$$ \begin{cases} x_1+x_2+x_3=6,\ 12x_1-3x_2+3x_3=15,\ -18x_1+3x_2-x_3=-15. \end{cases} $$

写成增广矩阵：

$$ \left[ \begin{array}{ccc|c} 1&1&1&6\ 12&-3&3&15\ -18&3&-1&-15 \end{array} \right]. $$

第一步，用第 1 行消去第 1 列下面的元素：

$$ R_2\leftarrow R_2-12R_1, \qquad R_3\leftarrow R_3+18R_1. $$

得到

$$ \left[ \begin{array}{ccc|c} 1&1&1&6\ 0&-15&-9&-57\ 0&21&17&93 \end{array} \right]. $$

第二步，用第 2 行消去第 2 列下面的元素：

$$ R_3\leftarrow R_3+\frac{7}{5}R_2. $$

得到上三角方程组：

$$ \left[ \begin{array}{ccc|c} 1&1&1&6\ 0&-15&-9&-57\ 0&0&\frac{22}{5}&\frac{22}{5} \end{array} \right]. $$

回代：

$$ x_3=1, $$

$$ -15x_2-9= -57\quad\Rightarrow\quad x_2=3, $$

$$ x_1+x_2+x_3=6\quad\Rightarrow\quad x_1=2. $$

所以

$$ x=(2,3,1)^T. $$

主元素法

小主元为什么危险

Gauss 消去法中，每一步都要除以主元 $a_{kk}^{(k)}$。

如果主元很小，形如

$$ l_{ik}=\frac{a_{ik}^{(k)}}{a_{kk}^{(k)}} $$

中的分母很小，舍入误差会被放大。

这会导致：

理论上等价的行变换，在浮点数计算中产生严重误差
后续步骤继续使用带误差的数据，误差不断传播
最终结果可能偏离真解很多

所以数值计算里不能只看“代数上能不能消”，还要看“消元顺序是否稳定”。

列主元素 Gauss 消去法

列主元素法的规则：

第 $k$ 步消元前，在第 $k$ 列的第 $k$ 行到第 $n$ 行中，选绝对值最大的元素作为主元，并把它所在行交换到第 $k$ 行。

数学写法：

$$ p=\arg\max_{k\le i\le n}|a_{ik}^{(k)}|. $$

若 $p\ne k$，先交换第 $p$ 行和第 $k$ 行，再继续消元。

这样做的目的：

避免用很小的数作分母
降低舍入误差被放大的风险
不改变未知量 $x_1,x_2,\dots,x_n$ 的顺序

:::TIP 只交换行，未知量编号不变。
如果交换列，$x$ 的分量顺序也会变化，程序实现更麻烦。 :::

例：例 2.1 的数值不稳定

课本例 2.1：

$$ \begin{cases} 0.50x_1+1.1x_2+3.1x_3=6.0,\ 2.0x_1+4.5x_2+0.36x_3=0.02,\ 5.0x_1+0.96x_2+6.5x_3=0.96. \end{cases} $$

若按原顺序直接用普通 Gauss 消去法，在有限位数计算下会得到近似结果：

$$ x_1\approx -5.80, \qquad x_2\approx 2.40, \qquad x_3\approx 2.00. $$

真解应为：

$$ x_1=-2.60, \qquad x_2=1.00, \qquad x_3=2.00. $$

误差的关键原因在于：第一次消元后，第二步主元附近出现了类似 $0.1$ 的小数。下一轮消元要除以它，舍入误差被大幅放大。

列主元素法的做法：第一列中绝对值最大的元素是 $5.0$，先把第 3 行换到第 1 行：

$$ \begin{cases} 5.0x_1+0.96x_2+6.5x_3=0.96,\ 2.0x_1+4.5x_2+0.36x_3=0.02,\ 0.50x_1+1.1x_2+3.1x_3=6.0. \end{cases} $$

接下来再消元，主元分母从 $0.50$ 换成 $5.0$，误差不会被小分母放大。最终可得到正确近似：

$$ x_1\approx -2.60, \qquad x_2\approx 1.00, \qquad x_3\approx 2.00. $$

配图占位：插入 lesson2 手写 PPT 中“例 2.1 小主元导致误差放大，以及交换行后主元变大”的推导截图。

全主元素法

全主元素法在每一步中，从剩余子矩阵中选绝对值最大的元素作为主元。

它比列主元素法更稳定，但会带来列交换。

列交换意味着未知量顺序变化，例如 $x_1$ 和 $x_2$ 的位置可能被交换，程序中需要额外记录变量顺序。

实际工程计算中，常用列主元素法；全主元素法用得较少。

初等行变换与 LU 分解

初等行变换矩阵

交换矩阵左乘一个矩阵，就等价于交换它的行。

例如

$$ A=\begin{bmatrix} 1&2&3\ 4&5&6\ 7&8&9 \end{bmatrix}. $$

若要交换第 1 行和第 3 行，可以构造

$$ P_{13}=\begin{bmatrix} 0&0&1\ 0&1&0\ 1&0&0 \end{bmatrix}. $$

于是

$$ P_{13}A= \begin{bmatrix} 7&8&9\ 4&5&6\ 1&2&3 \end{bmatrix}. $$

这一点说明：

对矩阵做初等行变换，可以理解为左乘某个初等矩阵。

消元也是初等行变换。比如

$$ R_i\leftarrow R_i-l_{i1}R_1 $$

对应的初等矩阵是在单位矩阵的 $(i,1)$ 位置放入 $-l_{i1}$。

Gauss 消去与 LU 分解的关系

不选主元时，Gauss 消去可以写成一串初等矩阵左乘：

$$ L_{n-1}\cdots L_2L_1A=U, $$

其中 $U$ 是上三角矩阵。

于是

$$ A=(L_{n-1}\cdots L_2L_1)^{-1}U. $$

把左边这一串逆矩阵记为 $L$，得到

$$ A=LU. $$

这里通常取：

$L$：单位下三角矩阵
$U$：上三角矩阵

这种形式也叫 Doolittle 分解。

:::TIP Gauss 消去过程中的乘子 $l_{ik}$，最后会出现在 $L$ 的下三角部分。
$U$ 则是消元后的上三角矩阵。 :::

压缩存储格式

在普通消元中，被消掉的位置本来会变成 $0$。

例如第一列中 $a_{21},a_{31},\dots,a_{n1}$ 被消成 $0$，但这些位置可以拿来存放对应的消元乘子：

$$ l_{21},l_{31},\dots,l_{n1}. $$

因此可以把 $L$ 和 $U$ 存在同一个二维数组中：

$$ \begin{bmatrix} u_{11}&u_{12}&u_{13}&\cdots&u_{1n}\ l_{21}&u_{22}&u_{23}&\cdots&u_{2n}\ l_{31}&l_{32}&u_{33}&\cdots&u_{3n}\ \vdots&\vdots&\vdots&\ddots&\vdots\ l_{n1}&l_{n2}&l_{n3}&\cdots&u_{nn} \end{bmatrix}. $$

这就是老师反复强调的 压缩存储格式。

它的好处：

不额外开一个矩阵存 $L$
原来应为 $0$ 的位置被有效利用
更接近真实程序中的 LU 分解实现

为什么 LU 分解有用

如果只解一个方程组，Gauss 消去和 LU 分解的计算量接近，都是 $O(n^3)$。

但如果同一个 $A$ 对应多个右端项：

$$ Ax=b^{(1)},\quad Ax=b^{(2)},\quad Ax=b^{(3)},\dots $$

LU 分解就非常有用。

先做一次

$$ A=LU. $$

每次解

$$ Ax=b $$

时，只需解两个三角方程组：

$$ Ly=b, $$

$$ Ux=y. $$

其中：

$Ly=b$：前代，$O(n^2)$
$Ux=y$：回代，$O(n^2)$

所以：

一次 LU 分解：O(n^3)
每换一个 b：O(n^2)

这就是 LU 分解在工程计算中的核心意义。

:::WARNING 工程计算中通常不会真的求 $A^{-1}$。
如果需要 $A^{-1}$ 对某个向量的作用，例如 $q=A^{-1}p$，实际做法是解

$$ Aq=p. $$

若已经有 $A=LU$，就通过前代和回代得到 $q$。 :::

带列主元素的三角分解：PA = LU

如果消元过程中发生了行交换，分解形式要写成

$$ PA=LU, $$

而不能只写 $A=LU$。

其中 $P$ 是置换矩阵，记录行交换。

理解方式：

$P$ 把 $A$ 的行重新排列
对重新排列后的矩阵做普通 LU 分解
列主元素法对应的分解结果就是 $PA=LU$

例：带列主元素的 LU 分解

老师课上重新演示了课本例 2.5。设

$$ A=\begin{bmatrix} 0&2&0&1\ 2&2&3&2\ 4&-3&0&1\ 6&1&-6&-5 \end{bmatrix}, \qquad b=\begin{bmatrix}0\-2\-7\6\end{bmatrix}. $$

第一列主元选绝对值最大的 $6$，所以第 4 行换到最上面。

第一轮消元后，压缩存储形式为：

$$ \left[ \begin{array}{rrrr|r} 6&1&-6&-5&6\ \frac13&\frac53&5&\frac{11}{3}&-4\ \frac23&-\frac{11}{3}&4&\frac{13}{3}&-11\ 0&2&0&1&0 \end{array} \right]. $$

第二列主元在剩余行中选 $-\dfrac{11}{3}$，所以当前第 2 行和第 3 行交换。继续消元后得到：

$$ \left[ \begin{array}{rrrr|r} 6&1&-6&-5&6\ \frac23&-\frac{11}{3}&4&\frac{13}{3}&-11\ \frac13&-\frac5{11}&\frac{75}{11}&\frac{62}{11}&-9\ 0&-\frac6{11}&\frac{24}{11}&\frac{37}{11}&-6 \end{array} \right]. $$

第三列不用换主元，消元乘子为

$$ \frac{\frac{24}{11}}{\frac{75}{11}}=\frac{8}{25}. $$

最终得到

$$ P=\begin{bmatrix} 0&0&0&1\ 0&0&1&0\ 0&1&0&0\ 1&0&0&0 \end{bmatrix}, $$

$$ L=\begin{bmatrix} 1&0&0&0\ \frac23&1&0&0\ \frac13&-\frac5{11}&1&0\ 0&-\frac6{11}&\frac8{25}&1 \end{bmatrix}, $$

$$ U=\begin{bmatrix} 6&1&-6&-5\ 0&-\frac{11}{3}&4&\frac{13}{3}\ 0&0&\frac{75}{11}&\frac{62}{11}\ 0&0&0&\frac{39}{25} \end{bmatrix}. $$

它们满足

$$ PA=LU. $$

如果继续求解方程组，最终得到

$$ x=\left(-\frac12,;1,;\frac13,;-2\right)^T. $$

配图占位：插入 lesson3 手写 PPT 中“例 2.5 带列主元素 LU 分解的压缩存储表格”截图。

:::TIP 这个例子的重点是理解结构：
行交换通过 $P$ 记录，消元乘子进入 $L$，剩下的上三角部分构成 $U$。 :::

三对角方程组与追赶法

三对角矩阵从哪里来

三对角方程组形如：

$$ \begin{bmatrix} b_1&c_1&&&0\ a_2&b_2&c_2&&\ & a_3&b_3&c_3&\ &&\ddots&\ddots&\ddots\ 0&&&a_n&b_n \end{bmatrix} \begin{bmatrix} x_1\x_2\x_3\\vdots\x_n \end{bmatrix}

\begin{bmatrix} d_1\d_2\d_3\\vdots\d_n \end{bmatrix}. $$

也就是只有三条对角线上可能非零：

主对角线 $b_i$
上副对角线 $c_i$
下副对角线 $a_i$

这种结构常来自一维网格上的局部耦合。

例如：某点 $x_i$ 的方程只考虑相邻点 $x_{i-1}$、$x_i$、$x_{i+1}$ 的影响，远处点影响忽略，于是每一行只有三个非零元素。

如果网格等距、材料均匀，还常常得到对称三对角矩阵。

三对角矩阵的 LU 分解

设

$$ A=LU, $$

其中

$$ L=\begin{bmatrix} 1&&&&0\ l_2&1&&&\ &l_3&1&&\ &&\ddots&\ddots&\ 0&&&l_n&1 \end{bmatrix}, $$

$$ U=\begin{bmatrix} u_1&c_1&&&0\ &u_2&c_2&&\ &&u_3&c_3&\ &&&\ddots&\ddots\ 0&&&&u_n \end{bmatrix}. $$

把 $L$ 和 $U$ 相乘并对比 $A$，可得：

$$ u_1=b_1, $$

对 $i=2,3,\dots,n$，有

$$ l_i=\frac{a_i}{u_{i-1}}, $$

$$ u_i=b_i-l_ic_{i-1}. $$

注意：上副对角线 $c_i$ 不变。

追赶法求解步骤

追赶法分三步。

第一步：分解

$$ u_1=b_1, $$

$$ l_i=\frac{a_i}{u_{i-1}},\qquad u_i=b_i-l_ic_{i-1},\qquad i=2,3,\dots,n. $$

第二步：前代解 $Ly=d$

$$ y_1=d_1, $$

$$ y_i=d_i-l_iy_{i-1},\qquad i=2,3,\dots,n. $$

第三步：回代解 $Ux=y$

$$ x_n=\frac{y_n}{u_n}, $$

$$ x_i=\frac{y_i-c_ix_{i+1}}{u_i},\qquad i=n-1,n-2,\dots,1. $$

所以追赶法只需要三个循环，计算量为

$$ O(n). $$

这比普通 LU 分解的 $O(n^3)$ 低很多。

:::WARNING 三对角结构非常宝贵。
如果直接把它当作一般满矩阵处理，会浪费大量计算和存储。 :::

配图占位：插入 lesson3 手写 PPT 中“三对角矩阵结构与追赶法三个循环”的截图。

对称正定矩阵与平方根法

对称正定的直观来源

对称正定矩阵在工程建模中非常常见。

对称性常来自物理作用的互易性：

点 $i$ 对点 $j$ 的影响
点 $j$ 对点 $i$ 的影响

在均匀材料、对称几何或对称相互作用下，这两者常常对应同一系数。

正定性可理解为能量意义上的“稳定”：

$$ x^TAx>0,\qquad x\ne0. $$

在很多弹性、热传导、扩散等问题中，系统能量为正，离散后得到的矩阵也常为对称正定矩阵。

:::TIP 当你在工程建模中断言 $A$ 是对称正定矩阵时，背后通常包含物理假设：局部作用、能量稳定、材料或几何的对称性。 :::

Cholesky 分解

定理：若 $A$ 是对称正定矩阵，则存在唯一的下三角矩阵 $L$，且 $L$ 的对角元全为正，使得

$$ A=LL^T. $$

这叫 Cholesky 分解，也叫平方根法。

对于

$$ A=(a_{ij})_{n\times n}, $$

算法为：

$$ l_{kk}=\sqrt{a_{kk}-\sum_{j=1}^{k-1}l_{kj}^2}, \qquad k=1,2,\dots,n. $$

对 $i=k+1,k+2,\dots,n$，

$$ l_{ik}=\frac{a_{ik}-\sum_{j=1}^{k-1}l_{ij}l_{kj}}{l_{kk}}. $$

正定性保证根号内为正，因此算法能继续做下去。

若要求解

$$ Ax=b, $$

由于

$$ A=LL^T, $$

可分两步：

$$ Ly=b, $$

$$ L^Tx=y. $$

第一步前代，第二步回代。

改进平方根法：LDL^T 分解

Cholesky 分解需要开平方。开平方在计算上比加减乘除更贵。

为了避免开平方，可以把分解写成

$$ A=LDL^T, $$

其中：

$L$ 是单位下三角矩阵
$D$ 是对角矩阵

设

$$ D=\operatorname{diag}(d_1,d_2,\dots,d_n). $$

算法为：

$$ d_k=a_{kk}-\sum_{j=1}^{k-1}l_{kj}^2d_j, \qquad k=1,2,\dots,n. $$

对 $i=k+1,k+2,\dots,n$，

$$ l_{ik}=\frac{a_{ik}-\sum_{j=1}^{k-1}l_{ij}l_{kj}d_j}{d_k}. $$

求解时分三步：

$$ Ly=b, $$

$$ Dz=y, $$

$$ L^Tx=z. $$

:::TIP $LDL^T$ 分解保留了对称正定结构，又避开了开平方运算，在程序实现中很实用。 :::

配图占位：插入 lesson3 手写 PPT 中“Cholesky 与 LDL^T 待定系数推导”的截图。

向量范数、矩阵范数与条件数

前面的算法都在处理误差与稳定性。要严格讨论“误差多大”，需要先定义向量和矩阵的大小，这就是范数。

向量范数

向量范数是从 $\mathbb{R}^n$ 到 $\mathbb{R}$ 的映射：

$$ x\mapsto |x|. $$

它要满足：

非负性与正定性

$$ |x|\ge0, \qquad |x|=0\Longleftrightarrow x=0. $$

齐次性

$$ |\alpha x|=|\alpha||x|. $$

三角不等式

$$ |x+y|\le |x|+|y|. $$

常用向量范数有：

1 范数

$$ |x|1=\sum{i=1}^n|x_i|. $$

2 范数

$$ |x|2=\left(\sum{i=1}^n x_i^2\right)^{1/2}. $$

它就是欧氏长度。

无穷范数

$$ |x|\infty=\max{1\le i\le n}|x_i|. $$

在 $\mathbb{R}^2$ 中，不同范数下的“单位圆”形状不同：

2 范数：圆
1 范数：菱形
无穷范数：正方形

这说明范数改变后，几何意义也会改变。

配图占位：插入 lesson3 手写 PPT 中“2 范数圆与无穷范数正方形单位圆”的示意图。

矩阵范数

矩阵范数给矩阵定义大小。对 $A,B\in\mathbb{R}^{n\times n}$，矩阵范数满足：

非负性与正定性

$$ |A|\ge0, \qquad |A|=0\Longleftrightarrow A=0. $$

齐次性

$$ |\alpha A|=|\alpha||A|. $$

三角不等式

$$ |A+B|\le |A|+|B|. $$

相容性 / 次乘性

$$ |AB|\le |A||B|. $$

相容性非常重要，因为矩阵代表线性算子。它允许我们估计多次线性作用带来的放大效果。

例如：

$$ |A^m|\le |A|^m. $$

若 $|A|<1$，则 $|A^m|\to0$。

向量诱导的矩阵范数

给定一个向量范数，可以定义对应的矩阵范数：

$$ |A|=\max_{x\ne0}\frac{|Ax|}{|x|}. $$

由于

$$ \frac{|Ax|}{|x|}=\left|A\frac{x}{|x|}\right|, $$

所以也可以理解为：

在所有单位向量上，找出 $A$ 对向量长度的最大放大倍数。

常用诱导矩阵范数：

矩阵 1 范数

$$ |A|1=\max{1\le j\le n}\sum_{i=1}^n |a_{ij}|. $$

即最大列和。

矩阵无穷范数

$$ |A|\infty=\max{1\le i\le n}\sum_{j=1}^n |a_{ij}|. $$

即最大行和。

矩阵 2 范数

$$ |A|2=\sqrt{\lambda{\max}(A^TA)}. $$

其中 $\lambda_{\max}(A^TA)$ 是 $A^TA$ 的最大特征值。

还有一个常用但非诱导的矩阵范数：Frobenius 范数

$$ |A|F=\left(\sum{i=1}^n\sum_{j=1}^n a_{ij}^2\right)^{1/2}. $$

它计算方便，性质也很好，很多场合可作为 2 范数的替代估计。

条件数

考虑

$$ Ax=b. $$

若右端项有扰动：

$$ A(x+\delta x)=b+\delta b. $$

因为 $Ax=b$，相减得

$$ A\delta x=\delta b. $$

若 $A$ 非奇异，则

$$ \delta x=A^{-1}\delta b. $$

于是

$$ |\delta x|\le |A^{-1}|,|\delta b|. $$

另一方面

$$ |b|=|Ax|\le |A|,|x|, $$

所以

$$ \frac{|\delta x|}{|x|} \le |A|,|A^{-1}| \frac{|\delta b|}{|b|}. $$

定义矩阵 $A$ 的条件数：

$$ \kappa(A)=|A|,|A^{-1}|. $$

因此

$$ \frac{|\delta x|}{|x|} \le \kappa(A)\frac{|\delta b|}{|b|}. $$

条件数的意义：

它衡量输入相对误差可能被放大多少倍后传到解中。

$\kappa(A)$ 小：问题条件好
$\kappa(A)$ 大：问题病态，右端项中的小误差可能造成解的大误差

工程直观：

如果测量得到的 $b$ 本身有 $10%$ 误差，那么解 $x$ 的误差可能被 $\kappa(A)$ 放大。模型建得好不好，不只看方程形式，也要看条件数是否可接受。

:::WARNING 条件数描述的是问题本身对扰动的敏感性。
算法稳定性描述的是计算方法在有限精度下是否额外放大误差。二者都重要。 :::

本章总结

这一章的主线可以压缩成几句话：

线性方程组 $Ax=b$ 是工程计算的核心问题之一。
Cramer 法则有理论意义，但运算量过大。
Gauss 消去法通过消元把方程组化为上三角方程组，再回代求解。
普通 Gauss 消去可能遇到小主元，导致舍入误差被放大。
列主元素法通过行交换选较大主元，提高数值稳定性。
从初等行变换角度看，Gauss 消去本质上产生了 LU 分解。
不换行时 $A=LU$，带列主元素时 $PA=LU$。
LU 分解适合同一个 $A$、多个 $b$ 的问题：一次分解，多次前代回代。
三对角矩阵可用追赶法，计算量从 $O(n^3)$ 降到 $O(n)$。
对称正定矩阵可用 Cholesky 分解 $A=LL^T$，也可用无需开根号的 $A=LDL^T$。
范数提供“误差大小”的度量，条件数刻画误差放大能力。

本章真正要掌握的是：

方程组怎么解、为什么这样解、计算量是多少、误差在哪里被放大、矩阵结构如何帮助我们更快更稳地解。

Chapter1：误差

Fri, 29 May 2026 00:00:00 GMT

概述

这一章的核心是：

数值计算得到的通常是近似解。学习误差，就是要知道误差从哪里来、如何度量、如何传播，以及怎样设计更可靠的计算过程。

计算链条可以概括为：

实际问题  →  抽象、简化  →  数学模型  →  数值计算  →  问题近似解

在这条链条中，误差不可避免。常见来源包括：

模型误差：实际问题被抽象、简化为数学模型时产生。
观测误差：原始数据来自测量，测量值本身不可能绝对精确。
截断误差 / 方法误差：用有限步骤近似无限过程，或用较易求解的问题近似原问题。
舍入误差：计算机只能保留有限位数字，必须对数值进行舍入。

本章重点讨论：截断误差与舍入误差如何影响计算结果。

误差的来源

数值计算方法研究的是：怎样用计算过程求数学问题的近似解。

现实问题通常不能直接交给计算机求解，需要经历：

把现实问题抽象成数学模型；
用数值算法求数学模型的近似解；
在计算机中用有限精度完成计算。

每一步都会引入误差。

模型误差

实际问题的解与数学模型的解之间的差，称为模型误差。

例如实际海域、建筑、流场、圆形边界等对象是连续的、复杂的。为了计算，往往要把区域离散成网格，把复杂条件简化为可处理的边界条件。这样得到的数学模型已经是现实问题的近似。

课堂中用“圆在网格上表示”的例子说明这一点：连续圆形边界落到离散网格上时，圆边界会被网格单元近似，几何形状本身已经发生误差。

观测误差

数学问题中的参数常由实验或观测得到。观测值无法绝对准确，因此由观测数据带来的误差称为观测误差。

例如长度、速度、温度、流量等物理量来自仪器测量。仪器精度有限，读数本身就带有误差。

截断误差

许多数学对象本身含有无限过程。计算时只能截取有限项或有限步，因此会产生截断误差，也称方法误差。

典型例子是用泰勒级数近似函数：

$$ \cos x=1-\frac{x^2}{2!}+\frac{x^4}{4!}-\frac{x^6}{6!}+\cdots+\frac{(-1)^n x^{2n}}{(2n)!}+\cdots $$

当 $|x|$ 很小时，可以用

$$ \cos x\approx 1-\frac{x^2}{2} $$

作为近似。由交错级数的莱布尼茨判别法可知，截断误差的绝对值不超过下一项：

$$ |R|\le \frac{x^4}{24}. $$

所以截断误差来自“无限过程被有限化”。

舍入误差

计算机不能保存所有实数。无穷小数、位数很多的数都要舍入成有限位数字，由此产生舍入误差。

课堂一开始提到的数制转换也说明了这一点：十进制整数可以转成二进制整数，例如

$$ 13_{10}=1101_2, $$

但许多十进制小数在二进制中会成为无限循环小数。计算机只能截断或舍入到有限位，于是出现舍入误差。

:::TIP 数值计算中最常见的危险不是“有误差”，而是误差在后续运算中被放大。所以后面要讨论误差传播、条件数和算法稳定性。 :::

绝对误差、相对误差与有效数字

绝对误差

设 $x$ 为准确值，$x^$ 为 $x$ 的一个近似值，则近似值 $x^$ 的绝对误差为

$$ e(x^)=x-x^. $$

准确值 $x$ 往往未知，所以绝对误差的准确值通常也未知。实际中常估计一个正数 $\varepsilon$，使

$$ |e(x^)|=|x-x^|\le \varepsilon. $$

这个 $\varepsilon$ 称为 $x^*$ 的绝对误差限，简称误差限。

于是准确值 $x$ 必在区间

$$ x^-\varepsilon\le x\le x^+\varepsilon $$

中，也可以写作

$$ x=x^*\pm \varepsilon. $$

例：圆周率近似

若取

$$ \pi\approx 3.14, $$

由于 $3.14$ 是四舍五入到小数点后两位的结果，所以误差不超过最后保留位的半个单位：

$$ |\pi-3.14|\le 0.0016<\frac12\times 10^{-2}. $$

若取

$$ \pi\approx 3.142, $$

则

$$ |\pi-3.142|\le 0.00041<\frac12\times 10^{-3}. $$

这里可以看出：误差限与保留位数有关，但它不能完全反映近似值本身的精确程度。

相对误差

绝对误差要结合数量级才有意义。比如同样误差 $0.1$，对测量 $1000$ 米来说很小，对测量 $0.2$ 米来说很大。

设 $x\ne 0$，近似值 $x^*$ 的相对误差定义为

$$ e_r(x^)=\frac{e(x^)}{x}=\frac{x-x^*}{x}. $$

由于准确值 $x$ 通常未知，实际常用

$$ e_r(x^)\approx \frac{e(x^)}{x^*} $$

估计相对误差。

若存在正数 $\varepsilon_r$，使

$$ |e_r(x^)|=\left|\frac{e(x^)}{x^*}\right|\le \varepsilon_r, $$

则称 $\varepsilon_r$ 为 $x^*$ 的相对误差限。

例：光速测量

若实验测得光速

$$ c^*=2.997925\times 10^5\ \text{km/s}, $$

其绝对误差限为 $0.1\ \text{km/s}$，则相对误差限为

$$ \frac{0.1}{2.997925\times 10^5}<4\times 10^{-7}. $$

所以 $4\times 10^{-7}$ 可作为该近似值的相对误差限。

:::TIP 绝对误差回答“差了多少”；相对误差回答“相对于原数差了多大比例”。数值计算中判断精度时，相对误差通常更有可比性。 :::

有效数字

有效数字既能表示近似值的大小，也能表示近似值的精确程度。

在计算中，常按四舍五入原则取近似值。若近似值 $x^*$ 的误差限为

$$ \frac12\times 10^{-n}, $$

则称 $x^*$ 准确到小数点后第 $n$ 位。

从第一个非零数字到该精确位之间的所有数字，都称为有效数字。

例：$\sqrt2$ 的近似值

$$ \sqrt2=1.414213562\cdots $$

若取四位小数：

$$ x^*=1.414, $$

则

$$ |\sqrt2-1.414|\le \frac12\times 10^{-3}, $$

所以 $1.414$ 有 $4$ 位有效数字。

若取八位小数：

$$ x^*=1.4142136, $$

则

$$ |\sqrt2-1.4142136|\le \frac12\times 10^{-7}, $$

所以它有 $8$ 位有效数字。

例：小数前有零时的有效数字

若

$$ x=0.003400\pm \frac12\times 10^{-5}, $$

则该近似值准确到小数点后第 $5$ 位。从第一个非零数字 $3$ 到这一位共有

3, 4, 0

所以 $0.003400$ 有 $3$ 位有效数字。前面的零只起定位作用，不计入有效数字。

例：整数部分较大时

若

$$ x^*=1452.046 $$

有 $7$ 位有效数字，则误差限为

$$ \frac12\times 10^{-3}. $$

若

$$ x^*=1452.0 $$

有 $5$ 位有效数字，则误差限为

$$ \frac12\times 10^{-1}. $$

注意：末尾的 $0$ 若位于有效位范围内，也应计为有效数字。

有效数字与相对误差的关系

若近似值的规格化形式为

$$ x^*=\pm 0.a_1a_2\cdots a_n\times 10^m,\qquad a_1\ne 0, $$

并且 $x^*$ 有 $n$ 位有效数字，则其相对误差限可取

$$ \varepsilon_r=\frac{1}{2a_1}\times 10^{-n+1}. $$

反过来，如果相对误差限满足

$$ \varepsilon_r\le \frac{1}{2(a_1+1)}\times 10^{-n+1}, $$

则 $x^*$ 至少有 $n$ 位有效数字。

例：$e$ 的近似值

若

$$ e\approx 2.72, $$

这里 $a_1=2$，且有 $3$ 位有效数字，所以相对误差限为

$$ \varepsilon_r=\frac{1}{2\times 2}\times 10^{-3+1}=0.25\times 10^{-2}. $$

数值计算中误差的传播

误差进入计算过程后，会通过函数运算继续传播。

一般函数的误差传播

设数值计算问题为

$$ y=f(x_1,x_2,\cdots,x_n), $$

参数 $x_1,x_2,\cdots,x_n$ 的近似值分别为

$$ x_1^,x_2^,\cdots,x_n^*. $$

对应的近似结果为

$$ y^=f(x_1^,x_2^,\cdots,x_n^). $$

当数据误差较小时，由多元函数的一阶泰勒展开，有

$$ e(y^)=y-y^ \approx \sum_{i=1}^{n}\frac{\partial f(x_1^,\cdots,x_n^)}{\partial x_i},e(x_i^*). $$

这说明：

输出误差大约等于各输入误差经过偏导数加权后的和。

其相对误差为

$$ e_r(y^)=\frac{e(y^)}{y^} \approx \sum_{i=1}^{n} \frac{\partial f(x_1^,\cdots,x_n^)}{\partial x_i} \frac{x_i^}{f(x_1^,\cdots,x_n^)} e_r(x_i^*). $$

其中

$$ \frac{\partial f}{\partial x_i}\frac{x_i^*}{f} $$

反映了第 $i$ 个输入相对误差对输出相对误差的放大程度。

四则运算的误差传播

由一般公式可推出四则运算中的误差传播规律。

和、差

$$ e(x_1\pm x_2)=e(x_1)\pm e(x_2), $$

$$ e_r(x_1\pm x_2)=\frac{x_1}{x_1\pm x_2}e_r(x_1)\pm \frac{x_2}{x_1\pm x_2}e_r(x_2). $$

由此可得误差限估计：

$$ |e(x_1\pm x_2)|\le |e(x_1)|+|e(x_2)|. $$

结论：和差的绝对误差限不超过各数绝对误差限之和。

积

$$ e(x_1x_2)\approx x_2e(x_1)+x_1e(x_2), $$

$$ e_r(x_1x_2)\approx e_r(x_1)+e_r(x_2). $$

结论：乘积的相对误差近似等于各因子相对误差之和。

商

$$ e\left(\frac{x_1}{x_2}\right)\approx \frac{1}{x_2}e(x_1)-\frac{x_1}{x_2^2}e(x_2), $$

$$ e_r\left(\frac{x_1}{x_2}\right)\approx e_r(x_1)-e_r(x_2). $$

误差限估计为

$$ \left|e_r\left(\frac{x_1}{x_2}\right)\right| \le |e_r(x_1)|+|e_r(x_2)|. $$

例：$y=x^n$

令

$$ y=x^n. $$

由相对误差公式：

$$ e_r(y)=d(\ln x^n)=n,d(\ln x)=n e_r(x). $$

所以

$$ e_r(x^n)\approx n e_r(x). $$

特别地，若

$$ y=\sqrt{x}=x^{1/2}, $$

则

$$ e_r(y)\approx \frac12 e_r(x). $$

也就是说，开平方会把输入相对误差约缩小一半；取 $n$ 次幂会把相对误差约放大 $n$ 倍。

例：计算 $x^*=1.21\times 3.65-9.81$

假定参与运算的数据都准确到两位小数，则每个输入的绝对误差限均为

$$ \frac12\times 10^{-2}. $$

设

$$ f(a,b,c)=ab-c, $$

其中 $a=1.21,b=3.65,c=9.81$。由误差传播公式，

$$ e(f)\approx b e(a)+a e(b)-e(c). $$

于是绝对误差限满足

$$ |e(f)|\le (3.65+1.21+1)\times \frac12\times 10^{-2}=0.0293. $$

近似结果为

$$ f^*=1.21\times 3.65-9.81=-5.3935. $$

相对误差限可估计为

$$ \frac{|e(f)|}{|f^*|}\le \frac{0.0293}{5.3935}\approx 0.0054. $$

因此该计算结果大约有两位有效数字。

线性方程组中的误差放大：条件数

课堂还补充了线性方程组中误差放大的问题。

考虑

$$ Ax=b. $$

如果右端项 $b$ 有扰动 $\delta b$，对应解的扰动为 $\delta x$，则

$$ A(x+\delta x)=b+\delta b. $$

由 $Ax=b$ 得

$$ A\delta x=\delta b, $$

从而

$$ \delta x=A^{-1}\delta b. $$

取范数，有

$$ |\delta x|\le |A^{-1}|,|\delta b|. $$

另一方面，

$$ |b|=|Ax|\le |A|,|x|. $$

于是得到相对误差估计：

$$ \frac{|\delta x|}{|x|} \le |A|,|A^{-1}|\frac{|\delta b|}{|b|}. $$

定义矩阵 $A$ 的条件数为

$$ \operatorname{cond}(A)=|A|,|A^{-1}|. $$

因此

$$ \frac{|\delta x|}{|x|} \le \operatorname{cond}(A)\frac{|\delta b|}{|b|}. $$

:::TIP 条件数衡量的是问题本身对扰动的敏感程度。

$\operatorname{cond}(A)$ 小：右端项小扰动通常只导致解的小扰动。
$\operatorname{cond}(A)$ 大：右端项很小的误差也可能被严重放大。

这种问题称为病态问题或病态线性方程组。 :::

例：Hilbert 矩阵

课堂用 Hilbert 矩阵演示病态性。Hilbert 矩阵定义为

$$ H_{ij}=\frac{1}{i+j-1},\qquad 1\le i,j\le n. $$

例如

$$ H_3= \begin{bmatrix} 1 & \frac12 & \frac13\ \frac12 & \frac13 & \frac14\ \frac13 & \frac14 & \frac15 \end{bmatrix}. $$

课堂中用软件计算得到：

cond(hilb(4))

结果约为

$$ 1.55\times 10^4. $$

继续增大阶数：

cond(hilb(10))

结果约为

$$ 1.60\times 10^{13}. $$

这说明 Hilbert 矩阵随阶数增大迅速变得极度病态。即使输入数据只产生很小扰动，解也可能出现明显误差。

算法的数值稳定性

什么是数值稳定性

同一个数学问题可以有多种算法。数学上等价的算法，在有限精度计算中效果可能差别很大。

如果计算过程中产生的舍入误差不会持续放大，这类算法称为数值稳定；如果误差在递推或迭代中不断被放大，则称为数值不稳定。

:::WARNING 要区分两个概念：

问题病态性：问题本身对输入扰动敏感，常用条件数衡量。
算法稳定性：算法在计算过程中是否放大舍入误差。

病态问题即使用稳定算法也很难算准；良态问题若选了不稳定算法，也可能算坏。 :::

例：递推计算积分

考虑积分

$$ I_n=\int_0^1\frac{x^n}{x+5},dx,\qquad n=0,1,2,\cdots $$

由

$$ \frac{x^n}{x+5}+5\frac{x^{n-1}}{x+5}=x^{n-1} $$

可得递推关系

$$ I_n+5I_{n-1}=\int_0^1 x^{n-1},dx=\frac1n. $$

另外，由于 $0\le x\le 1$ 时

$$ 5\le x+5\le 6, $$

所以有估计

$$ \frac{1}{6(n+1)}<I_n<\frac{1}{5(n+1)}. $$

这给出了 $I_n$ 的正性和大致范围。

算法 I：正向递推

先算

$$ I_0=\int_0^1\frac{1}{x+5},dx=\ln\frac65=\ln 1.2. $$

再由

$$ I_n=\frac1n-5I_{n-1},\qquad n=1,2,\cdots $$

依次计算 $I_1,I_2,\cdots$。

课堂演示代码可以写成：

I = zeros(30, 1);
I(1) = log(1.2);
for n = 1:29
    I(n + 1) = 1/n - 5 * I(n);
end
I(1:15)

问题在于：若 $I_0$ 有误差 $e_0$，且递推中不再产生新的舍入误差，则

$$ e_n=I_n-I_n^*=-5e_{n-1}. $$

因此

$$ e_n=(-5)^n e_0. $$

也就是说，每向前递推一步，误差约放大 $5$ 倍。正向递推是数值不稳定的。

算法 II：反向递推

先取一个较大的 $n$，用上下界给出 $I_n$ 的粗略近似。例如取

$$ I_{14}^*=\frac12\left(\frac{1}{6\times 15}+\frac{1}{5\times 15}\right)\approx 0.01222222. $$

再由递推式改写为

$$ I_{k-1}=\frac15\left(\frac1k-I_k\right),\qquad k=n,n-1,\cdots,1. $$

从 $I_{14}$ 反推 $I_{13},I_{12},\cdots,I_0$。

课堂演示代码可以写成：

I = zeros(15, 1);
I(15) = 0.5 * (1/(6*15) + 1/(5*15));
for k = 14:-1:1
    I(k) = (1/k - I(k + 1)) / 5;
end
I

误差满足

$$ e_{k-1}=-\frac15 e_k. $$

所以反向递推时，误差每一步约缩小为原来的 $1/5$。反向递推是数值稳定的。

两种算法结果对比

$n$	算法 I 正向递推	算法 II 反向递推
0	0.18232155	0.18232155
1	0.08839225	0.08839222
2	0.05803875	0.05803892
3	0.04313958	0.04313873
4	0.03430208	0.03430633
5	0.02848958	0.02846835
6	0.02418750	0.02432491
7	0.02176390	0.02123260
8	0.01618305	0.01883699
9	0.03019588	0.01692617
10	-0.05097941	0.01536914
11	0.34580612	0.01406339
12	-0.64569760	0.01301636
13	8.30540938	0.01184127
14	-41.45618310	0.01222222

由积分定义可知 $I_n>0$。正向递推到后面甚至得到负数，明显错误；反向递推得到的结果保持合理。

:::TIP 这个例子说明：算法不能只看数学等价性，还要看误差在计算过程中的传播方式。 :::

数值计算中应注意的问题

由于误差会传播和放大，数值计算中要尽量避免下列现象。

避免两个相近数相减

两个相近数相减时，结果很小，而相对误差可能很大。

由差的相对误差公式，若

$$ u=x-y, $$

则

$$ e_r(u)=\frac{e(x)-e(y)}{x-y}. $$

当 $x\approx y$ 时，分母 $x-y$ 很小，误差会被放大，有效数字会严重损失。这种现象称为相消误差。

例：计算 $\sqrt{1+10^{-7}}-1$

如果直接计算

$$ x=\sqrt{1+10^{-7}}-1, $$

由于 $\sqrt{1+10^{-7}}\approx 1$，两个相近数相减会丢失有效数字。

可做代数变形：

$$ \sqrt{1+10^{-7}}-1

\frac{10^{-7}}{\sqrt{1+10^{-7}}+1}. $$

这样避免了相近数直接相减。

例：计算 $1-\cos 2^\circ$

利用四位数学表，

$$ \cos 2^\circ\approx 0.9994. $$

若直接计算

$$ 1-\cos2^\circ\approx 1-0.9994=0.0006, $$

该近似值只有一位有效数字。

若改用恒等式

$$ 1-\cos2^\circ=2\sin^21^\circ, $$

查表得

$$ \sin1^\circ\approx 0.0175, $$

于是

$$ 1-\cos2^\circ\approx 2(0.0175)^2=0.6125\times 10^{-3}. $$

这时至少有两位有效数字。

常用的避免相消变形包括：

$$ 1-\cos x=2\sin^2\frac{x}{2}, $$

$$ \frac{1-\cos x}{\sin x}=\frac{\sin x}{1+cos x}, $$

$$ \sqrt{x+1}-\sqrt{x}=\frac{1}{\sqrt{x+1}+\sqrt{x}}, $$

$$ \frac1x-\frac1{x+1}=\frac{1}{x(x+1)}. $$

避免大数吃小数

计算机有限位运算中，若一个很大的数与一个很小的数相加，小数部分可能被舍去。

例如

$$ a=10^9+1. $$

为了使两项数量级相同，可写成

$$ a=0.1\times 10^{10}+0.0000000001\times 10^{10}. $$

如果计算机只能保留 $8$ 位小数，则第二项会被舍去，得到

$$ a\approx 0.1\times 10^{10}=10^9. $$

这就是“大数吃小数”。

例：二次方程求根

求方程

$$ x^2-(10^9+1)x+10^9=0 $$

的根。

容易看出两个根为

$$ x_1=10^9, \qquad x_2=1. $$

若直接使用求根公式，

$$ x=\frac{10^9+1\pm \sqrt{(10^9+1)^2-4\times 10^9}}{2}, $$

在计算较小根时会出现两个相近大数相减，可能得到错误结果。

对于较小根，应该用等价公式

$$ x_2=\frac{2\times 10^9}{10^9+1+\sqrt{(10^9+1)^2-4\times 10^9}}. $$

这样避免了大数相减，能得到

$$ x_2\approx 1. $$

避免除数绝对值远小于被除数

由商的绝对误差传播公式：

$$ e\left(\frac{x}{y}\right)=\frac{y e(x)-x e(y)}{y^2}. $$

当 $|y|\ll |x|$ 时，分母 $y^2$ 很小，误差会被显著放大。

所以在数值计算中，应尽量避免把很小的数放到分母里，特别是在小分母本身还有误差时。

简化计算，减少运算次数

运算次数越多，舍入误差累计的机会越多。选择合适公式可以同时减少计算量和误差积累。

例：计算 $\ln 2$

若用交错级数

$$ \ln2=1-\frac12+\frac13-\frac14+\cdots+\frac{(-1)^{n-1}}{n}+\cdots $$

取前 $n$ 项时，截断误差约不超过

$$ \frac{1}{n+1}. $$

若要求误差小于 $10^{-5}$，需要

$$ n\ge 10^5. $$

这意味着要计算十万项，效率很低，而且舍入误差也会累积。

利用级数

$$ \ln\frac{1+x}{1-x}=2\left(x+\frac{x^3}{3}+\frac{x^5}{5}+\cdots+\frac{x^{2n+1}}{2n+1}+\cdots\right), $$

取

$$ x=\frac13, $$

则

$$ \ln2=\frac23\left[1+\frac{1}{3\times 9}+\frac{1}{5\times 9^2}+\cdots+\frac{1}{(2n+1)9^n}+\cdots\right]. $$

若只取前 $5$ 项，截断误差满足

$$ e<\frac{2}{3}\cdot\frac{1}{11\times 9^5}\left(1+\frac19+\frac{1}{9^2}+\cdots\right)

\frac{1}{12\times 11\times 9^4}<10^{-5}. $$

显然，第二种算法效率更高。

例：多项式求值与秦九韶算法

设

$$ P_n(x)=a_nx^n+a_{n-1}x^{n-1}+\cdots+a_1x+a_0. $$

若直接按定义计算，需要约

$$ \frac{n(n+1)}2 $$

次乘法和 $n$ 次加法。

利用秦九韶算法，将多项式写成

$$ P_n(x)=a_0+x{a_1+x[a_2+\cdots+x(a_{n-1}+a_nx)]}. $$

递推形式为

$$ \begin{cases} u_n=a_n,\ u_k=xu_{k+1}+a_k,\qquad k=n-1,n-2,\cdots,0,\ P_n(x)=u_0. \end{cases} $$

这样只需 $n$ 次乘法和 $n$ 次加法。

选用数值稳定性好的算法

算法的数学形式可能等价，但数值效果可能相差很大。

选择算法时应优先考虑：

是否会导致相近数相减；
是否会让小误差在递推中持续放大；
是否会出现大数吃小数；
是否可通过变形减少运算次数；
问题本身是否病态。

前面的积分递推例子表明：同一递推关系正向计算不稳定，反向计算稳定。

本章小结

这一章可以抓住四条主线。

第一，误差来源：

模型误差、观测误差、截断误差、舍入误差

本章重点关注截断误差和舍入误差。

第二，误差度量：

$$ e(x^)=x-x^, \qquad |e(x^*)|\le \varepsilon, $$

$$ e_r(x^)\approx \frac{e(x^)}{x^}, \qquad |e_r(x^)|\le \varepsilon_r. $$

有效数字用来同时描述近似值的大小和精度。若

$$ x^*=\pm 0.a_1a_2\cdots a_n\times 10^m, $$

且有 $n$ 位有效数字，则

$$ \varepsilon_r=\frac{1}{2a_1}\times 10^{-n+1} $$

可作为相对误差限。

第三，误差传播：

$$ e(y^)\approx \sum_{i=1}^{n}\frac{\partial f}{\partial x_i}e(x_i^), $$

相对误差传播由

$$ \frac{\partial f}{\partial x_i}\frac{x_i^*}{f} $$

决定放大倍数。

四则运算中：

和差主要看绝对误差；
积商主要看相对误差；
相近数相减最容易丢失有效数字。

第四，算法选择：

避免相消；
避免大数吃小数；
避免小分母放大误差；
简化计算、减少运算次数；
选数值稳定的算法；
对线性方程组，还要关注条件数。

本章最重要的思想是：

数值计算不仅要算出一个答案，还要知道这个答案是否可靠，以及为什么可靠。

Sleepyfish

Chapter3：解线性方程组的迭代法

概述

目录

课前过渡：条件数与迭代法动机

条件数的意义

Hilbert 矩阵：病态矩阵的经典例子

非方阵方程组与线性最小二乘

为什么要学迭代法

迭代法的一般形式

从方程组到不动点迭代

误差递推

Jacobi 迭代法

分量形式

矩阵形式

算法步骤

例 1：Jacobi 迭代求三元方程组

Gauss-Seidel 迭代法

分量形式

矩阵形式

例 2：Gauss-Seidel 迭代继续求例 1

松弛法与 SOR 迭代

从 Gauss-Seidel 到松弛修正

SOR 的分量形式

SOR 的矩阵形式

例 3：SOR 迭代

松弛因子如何选

$$ \omega_{\mathrm{opt}}

迭代法的收敛条件

谱半径

一般迭代法的充要条件

常用判别条件

严格对角占优

不可约弱对角占优

对称正定

方程顺序会影响收敛

停机准则：不要只看前后两步差

最速下降法

对称正定方程组与二次函数

负梯度方向

最优步长

为什么最速下降可能很慢

共轭梯度法

$A$-共轭方向

算法公式

例 4：共轭梯度法两步得到精确解

应用实例：Poisson 方程与静电场

本章知识框架

Chapter2：解线性方程组的直接方法

概述

目录

线性方程组与直接方法

为什么不用 Cramer 法则

直接方法的基本想法

工程问题中的矩阵规模与稀疏性

Gauss 消去法

基本消元过程

回代

运算量

例：三元线性方程组的消元

主元素法

小主元为什么危险

列主元素 Gauss 消去法

例：例 2.1 的数值不稳定

全主元素法

初等行变换与 LU 分解

初等行变换矩阵

Gauss 消去与 LU 分解的关系

压缩存储格式

为什么 LU 分解有用

带列主元素的三角分解：PA = LU

例：带列主元素的 LU 分解

三对角方程组与追赶法

三对角矩阵从哪里来

$$ \begin{bmatrix} b_1&c_1&&&0\ a_2&b_2&c_2&&\ & a_3&b_3&c_3&\ &&\ddots&\ddots&\ddots\ 0&&&a_n&b_n \end{bmatrix} \begin{bmatrix} x_1\x_2\x_3\\vdots\x_n \end{bmatrix}

三对角矩阵的 LU 分解

追赶法求解步骤

对称正定矩阵与平方根法

对称正定的直观来源

Cholesky 分解