中心极限定理、正态近似与综合建模

前面几章一直在问单个随机变量或几个随机变量的分布。本章换一个角度：如果有许多相互独立、结构相似的小随机量，把它们加起来，会发生什么？

中心极限定理给出一个很强的回答。只要每个小随机量的均值和方差是稳定的，标准化后的总和常常会靠近正态分布。这个结论解释了为什么正态分布会反复出现在测量误差、抽样均值、计数近似和模拟误差中。

独立小波动经过求和与标准化后近似正态分布的中心极限定理示意图 — 许多独立小随机波动相加后，经标准化得到的变量会逐渐接近正态钟形曲线。

本章要回答的问题

大数定律告诉我们，样本均值 $\bar X_n$ 会靠近真实均值 $\mu$ 。它回答的是“长期平均值会不会稳定下来”。中心极限定理回答的是另一个问题：当 $\bar X_n$ 已经很靠近 $\mu$ 时，剩下的随机波动大约长什么样。

这两个问题容易混在一起。样本量变大时， $\bar X_n$ 的分布会越来越集中；但如果把它减去 $\mu$ ，再除以它自己的标准差，它的形状常常会越来越像标准正态分布。

横向对比图：左侧展示样本均值随 n 增大逐渐靠近均值，右侧展示标准化样本均值的直方图逐渐接近正态曲线 — 大数定律关注均值位置是否稳定，中心极限定理关注标准化波动的形状是否近似正态。

本章会把这件事落实到三类计算中：

用中心极限定理近似样本均值或随机变量和的概率。
用正态分布近似二项分布和 Poisson 分布，并处理连续性修正。
用中心极限定理理解蒙特卡洛估计的标准误差。

正态近似不是说原始数据一定正态，也不是说样本量大时所有问题都自动准确。它说的是，在合适条件下，标准化后的“和”或“均值”的分布可以用正态分布近似。

从和与均值开始

设 $X_1,X_2,\ldots,X_n$ 是独立同分布随机变量，公共均值和方差为

E(X_i)=\mu,\qquad Var(X_i)=\sigma^2

其中 $0<\sigma^2<\infty$ 。记总和与样本均值为

S_n=X_1+X_2+\cdots+X_n,\qquad \bar X_n=\frac{S_n}{n}

由期望线性性和独立性可得

E(S_n)=n\mu,\qquad Var(S_n)=n\sigma^2

以及

E(\bar X_n)=\mu,\qquad Var(\bar X_n)=\frac{\sigma^2}{n}

这几条公式本身已经说明了两个尺度：总和的典型波动量级是 $\sigma\sqrt n$ ，样本均值的典型波动量级是 $\sigma/\sqrt n$ 。中心极限定理正是沿着这个尺度去标准化。

标准化

标准化的目的，是把不同中心、不同尺度的随机量放到同一条标准正态尺上。对于总和，定义

Z_n=\frac{S_n-n\mu}{\sigma\sqrt n}

对于样本均值，同一个量也可以写成

Z_n=\frac{\bar X_n-\mu}{\sigma/\sqrt n}

这两个写法完全等价。前者从总和出发，后者从均值出发。做概率计算时，常常根据题目问的是 $S_n$ 还是 $\bar X_n$ 来选择更顺手的形式。

标准化流程图：总和先减去中心，再除以尺度，得到标准化随机变量 — 标准化把不同尺度的总和转换到同一把尺上的 $Z$ 变量。

标准化时最常见的错误，是把 $S_n$ 的标准差和 $\bar X_n$ 的标准差混用。总和的标准差是 $\sigma\sqrt n$ ，样本均值的标准差是。

中心极限定理

中心极限定理的基本形式可以这样表述：

若 $X_1,X_2,\ldots$ 独立同分布，且 $E(X_i)=\mu$ 、，其中，则

\frac{S_n-n\mu}{\sigma\sqrt n}\xrightarrow{d}N(0,1)

等价地，

\frac{\bar X_n-\mu}{\sigma/\sqrt n}\xrightarrow{d}N(0,1)

这里的 $\xrightarrow{d}$ 表示依分布收敛。它的含义是，对标准正态分布函数 $\Phi$ 的连续点 $x$ ，有

P\left(\frac{S_n-n\mu}{\sigma\sqrt n}\le x\right)\to \Phi(x)

这不是一个关于样本均值数值极限的命题，而是关于分布形状的命题。它告诉我们，当 $n$ 足够大时，可以近似写成

P\left(\frac{S_n-n\mu}{\sigma\sqrt n}\le x\right)\approx \Phi(x)

为什么这个结论有用

很多现实随机量本身并不正态。一次排队时间可能偏斜，一次点击行为可能是 0 或 1，一次测量误差可能有轻微偏态。可是当我们关心许多次独立重复的总和或平均值时，中心极限定理提供了一个统一近似。

以 Bernoulli 随机变量为例，若 $X_i$ 表示第 $i$ 次试验是否成功，成功概率为 $p$ ，则 $S_n$ 是成功次数，满足 $S_{n} \sim B i n (n,$ 。中心极限定理给出

\frac{S_n-np}{\sqrt{np(1-p)}}\approx N(0,1)

这个近似就是二项分布正态近似的来源。

大数定律与中心极限定理的区别

大数定律说

\bar X_n\xrightarrow{P}\mu

它关心 $\bar X_n$ 是否靠近 $\mu$ 。中心极限定理说

\frac{\bar X_n-\mu}{\sigma/\sqrt n}\xrightarrow{d}N(0,1)

它关心 $\bar X_n-\mu$ 经过自然尺度放大后的形状。前者说明均值会稳定，后者说明稳定过程中的随机误差怎样分布。

如果把这两句话放在一起理解，就能看清样本量的作用： $n$ 增大时， $\bar X_n$ 离 $\mu$ 的典型距离约为 $\sigma/\sqrt n$ ；把这个距离除掉后，剩下的标准化误差近似服从。

把中心极限定理用于计算

中心极限定理用于计算时，通常按一个固定流程走。不要先急着查正态表，先把随机变量、均值和方差弄清楚。

明确题目问的是总和 $S_n$ 、样本均值 $\bar X_n$ ，还是某个计数变量。这个选择决定使用还是。

例题：包装重量的平均值

某工厂每袋产品的重量 $X$ 的均值为 $500$ 克，标准差为 $12$ 克。随机抽取 $64$ 袋，近似计算样本平均重量落在 $497$ 克到 $503$ 克之间的概率。

这里问的是样本均值 $\bar X_{64}$ 。它的均值和标准差近似为

E(\bar X_{64})=500,\qquad SD(\bar X_{64})=\frac{12}{\sqrt{64}}=1.5

于是

P(497\le \bar X_{64}\le 503) =P\left(\frac{497-500}{1.5}\le Z\le \frac{503-500}{1.5}\right)

即

P(497\le \bar X_{64}\le 503)\approx P(-2\le Z\le 2)

查标准正态分布可得

P(-2\le Z\le 2)\approx 0.9545

所以样本平均重量落在这个区间内的概率约为 $95.45\%$ 。这个结果依赖两个条件：抽样近似独立，且单袋重量的方差稳定。如果生产批次之间存在系统性漂移，计算就会低估实际波动。

二项分布的正态近似

若 $X\sim Bin(n,p)$ ，则可以把 $X$ 看成 $n$ 个 Bernoulli 随机变量的和。它的均值和方差为

E(X)=np,\qquad Var(X)=np(1-p)

当 $np$ 和 $n(1-p)$ 都不太小时，有近似

\frac{X-np}{\sqrt{np(1-p)}}\approx N(0,1)

常用经验是检查 $np\ge 10$ 且 $n(1-p)\ge 10$ 。这不是定理中的硬边界，而是提醒你：如果成功或失败一侧太稀少，二项分布会明显偏斜，正态近似容易变差。

连续性修正

二项分布是离散分布，只在整数上取值；正态分布是连续分布。用连续曲线近似整数柱子时，边界要向外扩半格。

例如

P(a\le X\le b)

通常近似为

P(a-0.5\le Y\le b+0.5)

其中

Y\sim N(np,np(1-p))

如果要求 $P(X\ge a)$ ，连续性修正后使用 $P(Y\ge a-0.5)$ ；如果要求 $P(X\le b)$ ，使用。

二项分布正态近似示意图，整数柱子表示二项概率，正态曲线覆盖柱状图，并用连续区间表示连续性修正 — 二项分布的正态近似用连续区间近似整数事件，边界通常向外扩半个单位。

例题：投票支持人数

某候选人的真实支持率近似为 $p=0.52$ 。在 $400$ 名独立抽样选民中，支持人数记为 $X$ 。近似计算支持人数至少为 $220$ 的概率。

这里

X\sim Bin(400,0.52)

所以

E(X)=208,\qquad SD(X)=\sqrt{400\cdot 0.52\cdot 0.48}\approx 9.99

事件 $X\ge 220$ 经连续性修正为 $Y\ge 219.5$ ，于是

P(X\ge 220)\approx P\left(Z\ge \frac{219.5-208}{9.99}\right)

也就是

P(X\ge 220)\approx P(Z\ge 1.15)\approx 0.125

所以近似概率约为 $12.5\%$ 。如果不用连续性修正，会把边界放在 $220$ 而不是 $219.5$ ，得到的结果会略小。

Poisson 的正态近似

Poisson 分布常用于单位时间、单位空间内的事件计数。若 $X\sim Pois(\lambda)$ ，则

E(X)=\lambda,\qquad Var(X)=\lambda

当 $\lambda$ 较大时， $X$ 可以用正态分布近似：

X\approx N(\lambda,\lambda)

也就是

\frac{X-\lambda}{\sqrt\lambda}\approx N(0,1)

Poisson 分布同样是离散分布，所以计算区间概率时也常使用连续性修正。

三联图展示不同参数的 Poisson 概率柱状图，参数增大时由偏斜逐渐接近钟形，并叠加正态近似曲线 — Poisson 分布的大参数正态近似：当 $\lambda$ 增大时，分布形状逐渐接近正态，且均值等于方差。

例题：一分钟来电数

某客服中心一分钟内来电数近似服从 $Pois(36)$ 。近似计算一分钟内来电数至少为 $45$ 的概率。

使用正态近似 $Y\sim N(36,36)$ 。事件 $X\ge 45$ 经连续性修正为 $Y\ge 44.5$ ，因此

P(X\ge 45)\approx P\left(Z\ge \frac{44.5-36}{6}\right)

即

P(X\ge 45)\approx P(Z\ge 1.42)\approx 0.078

这个概率约为 $7.8\%$ 。若 $\lambda$ 只有 $3$ 或 $4$ ，Poisson 分布偏斜明显，此类正态近似就不应作为首选。

近似误差与常见误区

中心极限定理说明近似会在极限中成立，但它没有说某个具体样本量下一定足够准确。有限样本下的误差取决于原分布的偏斜程度、尾部厚度、独立性和所计算的概率位置。

一个有用的定性判断是：如果原随机变量的三阶绝对中心矩有限，则 Berry-Esseen 型结果会给出 $1/\sqrt n$ 量级的分布函数误差界：

\sup_x\left|P(Z_n\le x)-\Phi(x)\right| \le \frac{C E|X_1-\mu|^3}{\sigma^3\sqrt n}

不需要在本课记住常数 $C$ 。这条式子的教学价值在于，它提醒我们两件事：样本量增大通常能改善近似；原分布越偏斜或尾部越重，达到同样精度可能需要更大的样本量。

不要把“样本量大”当成万能许可。若观测之间强相关、方差不存在、样本来自几个不同机制的混合，或者目标概率在极端尾部，简单正态近似可能给出很自信但错误的答案。

使用前的检查清单

做正态近似前，可以按下面几项快速检查：

随机量是否能表示成许多小贡献的和或均值。
小贡献之间是否近似独立，至少没有强烈共同波动。
单个贡献的均值和方差是否稳定，是否存在极端重尾。
如果是二项分布， $np$ 与 $n(1-p)$ 是否都不小。
如果是离散计数，是否需要连续性修正。
计算的是中心附近概率还是很远的尾部概率。

蒙特卡洛模拟

蒙特卡洛方法用随机数估计难以直接计算的概率或期望。设目标量是

\theta=E(Y)

我们独立模拟 $Y_1,Y_2,\ldots,Y_m$ ，用样本均值

\hat\theta_m=\frac{1}{m}\sum_{i=1}^m Y_i

估计 $\theta$ 。如果 $Y$ 的方差为 $\tau^2$ ，中心极限定理给出

\frac{\hat\theta_m-\theta}{\tau/\sqrt m}\approx N(0,1)

实际计算时 $\tau$ 通常未知，就用模拟样本标准差 $s$ 替代。于是标准误差估计为

SE(\hat\theta_m)\approx \frac{s}{\sqrt m}

这条公式解释了一个常见经验：想把蒙特卡洛误差减半，重复次数大约要增加到原来的 $4$ 倍。

蒙特卡洛模拟估计图，展示估计值围绕真实值波动，重复次数增加后估计量分布变窄 — 蒙特卡洛估计的标准误差随重复次数增加而减小。

模拟误差和建模误差

蒙特卡洛重复次数 $m$ 增大，能降低的是模拟误差。它不能修正错误模型带来的偏差。

例如你用模拟估计排队系统的平均等待时间。如果到达过程、服务时间分布和独立性假设本身接近真实系统，增大模拟次数会让估计更稳定；如果模型把高峰期到达当成均匀到达，模拟再久也只会稳定地估计一个错误模型。

综合建模

中心极限定理最适合处理“许多小贡献叠加”的问题。建模时不要从正态分布开始，而是先找出随机贡献、单位、均值、方差和独立性来源。

例题：保险赔付总额

某保险组合包含 $500$ 份相似保单。单份保单一年赔付额 $X$ 的均值为 $120$ 元，标准差为 $600$ 元。假设不同保单赔付额近似独立，估计一年总赔付额超过 $80\,000$ 元的概率。

设总赔付额为

S_{500}=X_1+\cdots+X_{500}

则

E(S_{500})=500\cdot 120=60\,000

且

SD(S_{500})=\sqrt{500}\cdot 600\approx 13\,416

用中心极限定理近似，

P(S_{500}>80\,000) \approx P\left(Z>\frac{80\,000-60\,000}{13\,416}\right)

即

P(S_{500}>80\,000)\approx P(Z>1.49)\approx 0.068

所以超过 $80\,000$ 元的概率约为 $6.8\%$ 。这个答案不是“保险赔付额服从正态分布”，而是“500 份近似独立保单的总额可用正态近似”。如果保单之间受同一灾害强烈影响，独立性假设会失效，总风险会被低估。

综合建模的好答案通常包括三层内容：随机变量怎么定义，均值和方差怎么来，近似条件是否合理。只给最后一个正态概率，往往不足以说明模型可信。

练习

概念判断

判断下列说法是否正确，并说明理由。

只要 $n$ 很大， $X_1$ 的分布就会接近正态分布。
若 $X_i$ 独立同分布且方差有限，则 $\bar X_n$ 的标准差是。

第 1 句错误。中心极限定理讨论的是标准化后的和或均值，不是单个 $X_1$ 。第 2 句正确，这是样本均值方差公式。第 3 句错误，单侧概率也常需要连续性修正，例如 $P(X\ge a)$ 对应 $P(Y\ge a-0.5)$ 。第 4 句正确，重复模拟只能让估计更稳定，不能改变被模拟的模型。

样本均值计算

某零件长度的均值为 $20$ 毫米，标准差为 $0.4$ 毫米。抽取 $100$ 个零件，近似计算样本平均长度超过 $20.06$ 毫米的概率。

样本均值的标准差为 $0.4/\sqrt{100}=0.04$ 。标准化得

z=\frac{20.06-20}{0.04}=1.5

二项近似

设 $X\sim Bin(250,0.08)$ 。用正态近似并加连续性修正，估计 $P(X\le 15)$ 。

均值为 $np=20$ ，标准差为

\sqrt{250\cdot 0.08\cdot 0.92}\approx 4.29

事件修正为。因此

Poisson 近似

设一分钟内某接口请求数 $X\sim Pois(64)$ 。用正态近似估计 $P(55\le X\le 75)$ 。

用 $Y\sim N(64,64)$ 近似。连续性修正后，

P(55\le X\le 75)\approx P(54.5\le Y\le 75.5)

蒙特卡洛标准误差

一次模拟输出随机变量 $Y$ ，用 $m=10\,000$ 次模拟估计 $\theta=E(Y)$ 。模拟样本均值为 $2.37$ ，样本标准差为 $5.8$ 。估计标准误差，并给出一个粗略的 $95 %$ 误差范围。

标准误差估计为

SE\approx \frac{5.8}{\sqrt{10\,000}}=0.058

建模题

一家仓库每天处理 $900$ 个独立订单。单个订单的处理时间均值为 $4.2$ 分钟，标准差为 $3$ 分钟。若一天可用处理时间为 $3\,900$ 分钟，近似估计总处理时间超过可用时间的概率。说明你的假设。

设第 $i$ 个订单处理时间为 $X_i$ ，总时间为 $S_{900}$ 。若近似独立同分布，则

E(S_{900})=900\cdot 4.2=3\,780

小结

中心极限定理把前面学过的独立性、期望、方差、随机变量和收敛概念连在一起。它告诉我们，许多独立小贡献的和，在合适标准化后会出现稳定的正态形状。

使用这个工具时，关键不是背一句“样本量大近似正态”，而是能写出研究对象、中心、尺度和近似条件。二项分布和 Poisson 分布的正态近似来自同一条思想；蒙特卡洛标准误差也是中心极限定理在模拟中的直接应用。

到这里，概率论 I 的主线已经闭合：从样本空间和事件开始，经由随机变量、分布、期望、联合结构、变换和不等式，最后到达大数定律与中心极限定理。后续进入统计推断、随机过程或机器学习概率基础时，本章的标准化和误差尺度会反复出现。

中心极限定理、正态近似与综合建模 | 概率论 I | 自在学

p

)

S_n\sim Bin(n,p)

95\%