2 / 12

概率论基础 | 自在学

概率论基础

热力学与统计物理的核心，在于用概率的语言描述大量粒子的集体行为。当我们面对一个具体的气体分子时，无法准确预测它在某一时刻的速度、位置和动能，因为微观世界充满了随机性和不确定性。然而，若我们观察的是数以亿万计的分子整体，它们的速度分布、能量分布却表现出惊人的规律性和可预见性。这种从“随机个体”到“规律整体”的转变，是统计物理最本质、最奇妙的特点之一。

正是由于个体的不确定、系统的巨大数目，以及复杂相互作用的影响，单靠经典力学无法直接刻画宏观物理量的表现。我们需要概率论和统计方法，来描述粒子群体的行为、预测物理量的平均值与涨落规律。例如，通过概率分布函数，可以得知某一速度区间内分子的比例，进而推算出气体的压强、温度等宏观性质。换言之，统计物理的强大之处，在于用抽象的概率工具，将微观世界的无序和复杂，转化为宏观世界的简洁与确定。

理解概率论的基本原理，是打开统计物理大门的钥匙，也是后续玻尔兹曼分布、熵、涨落乃至相变等核心内容的理论基础。

随机现象与概率

掷一枚骰子，事先无法知道结果是几；但掷出足够多次，每个点数出现的频率都趋近于 $1/6$ 。这种在个体层面无法预测、在大量重复中却涌现出稳定规律的现象，称为随机现象。

概率是对随机事件发生可能性的定量描述。对某一事件 $A$ ，其概率 $P(A)$ 满足：

0 \leq P(A) \leq 1

$P(A) = 0$ 表示事件不可能发生， $P(A) = 1$ 表示事件必然发生。若事件 $A$ 与事件 $B$ 互斥（不能同时发生），则：

P(A \cup B) = P(A) + P(B)

事件 $A$ 的对立事件（即 $A$ 不发生）记作 $\bar{A}$ ，满足：

P(\bar{A}) = 1 - P(A)

几个典型随机实验的概率结构对比如下：

概率反映的是大量重复实验中事件出现的频率极限，而不是单次实验的结论。单次掷骰子得到“6”完全正常，但掷 6000 次后“6”出现的次数应非常接近 1000。

离散概率分布

当随机变量 $X$ 只能取有限个或可数个离散值时，描述它的工具是概率分布列。对每个可能取值 $x_i$ ，给出对应的概率 $P(X = x_i) = p_i$ ，所有概率之和为：

\sum_i p_i = 1

以掷一枚均匀骰子为例，点数 $X$ 的概率分布如下：

$X$	$1$	$2$	$3$	$4$	$5$	$6$
$P$

这是最简单的均匀分布——每个结果等概率出现。实际的物理问题中，概率分布往往不均匀。以一枚重心偏移的“不均匀硬币”为例，若正面出现的概率 $p = 0.6$ ，反面的概率 $1-p = 0.4$ ：

结果	正面	反面
概率	$0.6$	$0.4$

在统计物理中，能量低的微观状态被占据的概率更高——这与后续的玻尔兹曼因子 $e^{-E/k_BT}$ 直接对应，是热力学统计描述的核心。

期望值与方差

期望值（均值） $\langle X \rangle$ 是随机变量取值的概率加权平均，代表大量实验的平均结果：

\langle X \rangle = \sum_i x_i \, p_i

对掷均匀骰子，期望值为：

\langle X \rangle = 1 \times \frac{1}{6} + 2 \times \frac{1}{6} + \cdots + 6 \times \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5

注意 $3.5$ 不是骰子能出现的点数，它是大量实验结果趋向的平均值。

期望值只告诉了分布的“中心位置”，还需要一个量描述数据的分散程度。方差 $\text{Var}(X)$ 定义为偏差平方的期望：

\text{Var}(X) = \langle (X - \langle X \rangle)^2 \rangle = \langle X^2 \rangle - \langle X \rangle^2

标准差 $\sigma$ 是方差的平方根，与 $X$ 具有相同的量纲，物理意义更为直观：

\sigma = \sqrt{\text{Var}(X)}

对掷骰子，先计算 $\langle X^2 \rangle$ ：

\langle X^2 \rangle = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6} \approx 15.17

\text{Var}(X) = 15.17 - (3.5)^2 = 15.17 - 12.25 \approx 2.92, \quad \sigma \approx 1.71

期望值描述分布的“中心位置”，方差（或标准差）描述分布的“宽窄”。在统计物理中，期望值对应可测量的宏观量，标准差对应该量的涨落幅度。

三个统计量的物理对照：

连续概率分布

许多物理量（如分子速度、粒子位置）可以取连续的实数值，需要用概率密度函数 $f(x)$ 来描述。 $f(x)$ 的含义是：随机变量落在 $[x,\, x+\mathrm{d}x]$ 内的概率为 $f(x)\,\mathrm{d}x$ 。对有限区间积分得到概率：

P(a \leq X \leq b) = \int_a^b f(x) \, \mathrm{d}x

归一化条件要求：

\int_{-\infty}^{+\infty} f(x) \, \mathrm{d}x = 1

连续分布的期望值与方差计算，将求和替换为积分：

\langle X \rangle = \int_{-\infty}^{+\infty} x \, f(x) \, \mathrm{d}x

\text{Var}(X) = \int_{-\infty}^{+\infty} (x - \langle X \rangle)^2 \, f(x) \, \mathrm{d}x

以均匀分布为例：在区间 $[0, L]$ 上取 $f(x) = 1/L$ ，在区间外 $f(x) = 0$ 。直接积分可得 $\langle X \rangle = L/2$ （恰好在区间中点），方差。这与气体分子在容器中均匀分布的物理图像完全吻合——每个位置等概率出现，平均位置在容器中心。

概率密度函数 $f(x)$ 本身不是概率，它的量纲是概率除以 $X$ 的量纲。只有将 $f(x)$ 对一段区间积分，才能得到该区间内的概率。 $f(x)$ 在某点处的值可以大于 $1$ ，但对全空间的积分恒等于 $1$ 。

独立随机变量的叠加

设 $X_1, X_2, \ldots, X_N$ 是 $N$ 个相互独立的随机变量，各自的期望值和方差分别为和。定义它们的总和，则：

\langle S_N \rangle = \sum_{i=1}^N \mu_i

\text{Var}(S_N) = \sum_{i=1}^N \sigma_i^2

方差的可加性要求随机变量相互独立，这是关键假设。若所有 $X_i$ 同分布（均值 $\mu$ 、方差 $\sigma^2$ ），则：

\langle S_N \rangle = N\mu, \quad \sigma_{S_N} = \sqrt{N}\,\sigma

相对涨落（标准差与均值之比）为：

\frac{\sigma_{S_N}}{\langle S_N \rangle} = \frac{\sqrt{N}\,\sigma}{N\mu} = \frac{\sigma}{\mu\sqrt{N}}

随着 $N$ 增大，相对涨落按 $1/\sqrt{N}$ 衰减，绝对涨落在增大，而相对于均值的涨落在缩小。下表展示了这种趋势：

当 $N = 10^{23}$ 时，相对涨落约为 $10^{-12}$ ，远低于任何仪器的分辨率。宏观量之所以高度稳定，原因不是粒子运动变得“整齐”，而是大量随机量叠加后相对涨落极小——这正是热力学规律得以精确成立的统计学根基。

二项分布

抛一枚硬币 $N$ 次，每次正面出现的概率为 $p$ ，反面的概率为 $1-p$ 。 $N$ 次独立实验中恰好出现 $n$ 次正面的概率，由二项分布给出：

P(n;\, N,\, p) = \binom{N}{n} p^n (1-p)^{N-n}

其中组合数 $\dbinom{N}{n} = \dfrac{N!}{n!\,(N-n)!}$ 计算了从次实验中选出次“成功”的方案总数。二项分布的期望值与方差：

\langle n \rangle = Np, \quad \text{Var}(n) = Np(1-p), \quad \sigma_n = \sqrt{Np(1-p)}

以 $N = 4$ 、 $p = 1/2$ 为例，列出完整分布：

期望值 $\langle n \rangle = 4 \times 0.5 = 2$ ，标准差 $\sigma = \sqrt{4 \times 0.5 \times 0.5} = 1$ 。出现 2 次正面的概率最大（37.5%），偏离越远概率越小，分布关于均值对称。

二项分布在统计物理中有直接的物理类比：将容器分为体积相等的左右两半，每个气体分子以概率 $p = 1/2$ 出现在左半。 $N$ 个分子中恰好有 $n$ 个在左半的概率，精确地由二项分布描述。当 $N$ 非常大时，几乎所有分子几乎均等地分布在两侧——偏离均值的概率按指数规律衰减，这正是气体自发均匀分布的统计学根源。

二项分布的物理意义在于：宏观上“理所当然”的均匀分布，在微观上是统计规律的必然结果，而非某种神秘的“斥力”。绝大多数微观状态对应于接近均匀的宏观分布，偏离均匀的状态数量极少——热力学第二定律的根基正在于此。

高斯近似

当 $N$ 很大时，直接计算组合数 $\dbinom{N}{n}$ 极为困难。利用斯特林近似 $\ln(N!) \approx N\ln N - N$ ，可以证明：当且在均值附近时，二项分布收敛到高斯（正态）分布：

P(n) \approx \frac{1}{\sqrt{2\pi N p(1-p)}} \exp\!\left(-\frac{(n - Np)^2}{2Np(1-p)}\right)

这是均值为 $\mu = Np$ 、标准差为 $\sigma = \sqrt{Np(1-p)}$ 的高斯函数，呈现出标志性的“钟形”曲线，关于均值左右对称，在处有拐点。

高斯分布的几个重要性质：

这被称为“68–95–99.7 规则”，在实验误差估计和数据分析中广泛使用。

以 $N = 100$ 次抛硬币（ $p = 0.5$ ）为例：均值 $\mu = 50$ ，标准差 $\sigma = 5$ 。正面次数落在 $[45, 55]$ 的概率约为，落在的概率约为。对气体中的粒子分布，时，，而相对涨落，远低于任何实验仪器的分辨能力——宏观上气体密度看起来完全均匀。

从二项分布到高斯分布的过渡，是统计物理中最重要的数学结论之一。无论原始分布的形状如何，大量独立随机变量的总和总趋向于高斯分布——这就是中心极限定理的核心思想。热力学的稳定性与确定性，最终都来源于这一深刻的数学规律。

练习

选择题

题一（基本概率计算）

掷一枚均匀骰子，点数大于 $4$ 的概率为

A. $\dfrac{1}{6}$ B. $\dfrac{1}{3}$ C. $\dfrac{1}{2}$ D.

答案：B

点数大于 $4$ 的结果为 $\{5,\,6\}$ ，共 $2$ 个，样本空间共 $6$ 个等可能结果，故：

P = \frac{2}{6} = \frac{1}{3}

题二（期望值的计算）

某随机变量 $X$ 的分布为： $P(X=1)=0.2$ ， $P(X=2)=0.5$ ， $P(X=3)=0.3$ ，期望值为

A. $1.8$ B. $2.0$ C. $2.1$ D. $2.5$

答案：C

\langle X \rangle = 1 \times 0.2 + 2 \times 0.5 + 3 \times 0.3 = 0.2 + 1.0 + 0.9 = 2.1

题三（二项分布）

抛一枚均匀硬币 $3$ 次，恰好出现 $2$ 次正面的概率为

A. $\dfrac{1}{8}$ B. $\dfrac{2}{8}$ C. $\dfrac{3}{8}$ D.

答案：C

由二项分布公式， $N=3$ ， $n=2$ ， $p=1/2$ ：

P ⁣ (2; 3, \frac{1}{2}) = (\binom{3}{2}) {(\frac{1}{2})}^{⁣ 2} {(\frac{1}{2})}^{⁣}

题四（高斯分布性质）

某测量值服从正态分布，均值 $\mu = 50$ ，标准差 $\sigma = 2$ 。测量值落在区间 $[46,\,54]$ 内的概率约为

A. $68.3\%$ B. $95.4\%$ C. $99.7\%$ D. $50.0\%$

答案：B

区间 $[46,\,54] = [\mu - 2\sigma,\; \mu + 2\sigma]$ ，根据高斯分布的“68–95–99.7 规则”，落在均值 $\pm 2\sigma$ 内的概率约为 $95.4\%$ 。

计算题

题五（二项分布的期望与标准差）

一个容器被隔板分为体积相等的左右两半，其中共有 $N = 1000$ 个气体分子，每个分子独立地以概率 $p = 0.5$ 出现在左半。设左半的分子数为 $n$ 。求：① $n$ 的期望值 $\langle n \rangle$ ；② $n$ 的标准差；③ 相对于期望值的相对涨落。

① 期望值

\langle n \rangle = Np = 1000 \times 0.5 = 500

② 标准差

\sigma_n = \sqrt{Np(1-p)} = \sqrt{1000 \times 0.5 \times 0.5} = \sqrt{250} \approx 15.8

题六（连续均匀分布的期望与方差）

一个随机变量 $X$ 在区间 $[0,\,4]$ 上均匀分布，概率密度函数为 $f(x) = 1/4$ （区间外为零）。求：① 期望值 $\langle X \rangle$ ；② 方差 $\text{Var}(X)$ ；③ 标准差。

① 期望值

\langle X \rangle = \int_0^4 x \cdot \frac{1}{4} \, \mathrm{d}x = \frac{1}{4} \cdot \frac{x^2}{2}\,\Bigg|_0^4 = \frac{1}{4} \times 8 = 2

1

=

3

\times

\frac{1}{4}

\times

\frac{1}{2}

=

\frac{3}{8}

P\!\left(2;\,3,\,\tfrac{1}{2}\right) = \binom{3}{2}\left(\frac{1}{2}\right)^{\!2}\left(\frac{1}{2}\right)^{\!1} = 3 \times \frac{1}{4} \times \frac{1}{2} = \frac{3}{8}