概率论基础
热力学与统计物理的核心,在于用概率的语言描述大量粒子的集体行为。当我们面对一个具体的气体分子时,无法准确预测它在某一时刻的速度、位置和动能,因为微观世界充满了随机性和不确定性。然而,若我们观察的是数以亿万计的分子整体,它们的速度分布、能量分布却表现出惊人的规律性和可预见性。这种从“随机个体”到“规律整体”的转变,是统计物理最本质、最奇妙的特点之一。
正是由于个体的不确定、系统的巨大数目,以及复杂相互作用的影响,单靠经典力学无法直接刻画宏观物理量的表现。我们需要概率论和统计方法,来描述粒子群体的行为、预测物理量的平均值与涨落规律。例如,通过概率分布函数,可以得知某一速度区间内分子的比例,进而推算出气体的压强、温度等宏观性质。换言之,统计物理的强大之处,在于用抽象的概率工具,将微观世界的无序和复杂,转化为宏观世界的简洁与确定。
理解概率论的基本原理,是打开统计物理大门的钥匙,也是后续玻尔兹曼分布、熵、涨落乃至相变等核心内容的理论基础。
随机现象与概率
掷一枚骰子,事先无法知道结果是几;但掷出足够多次,每个点数出现的频率都趋近于 1/6。这种在个体层面无法预测、在大量重复中却涌现出稳定规律的现象,称为随机现象。
概率是对随机事件发生可能性的定量描述。对某一事件 A,其概率 P(A) 满足:
0≤P(A)≤1
P(A)=0 表示事件不可能发生,P(A)=1 表示事件必然发生。若事件 A 与事件 B 互斥(不能同时发生),则:
P(A∪B)=P(A)+P(B)
事件 A 的对立事件(即 A 不发生)记作 Aˉ,满足:
P(Aˉ)=1−P(A)
几个典型随机实验的概率结构对比如下:

概率反映的是大量重复实验中事件出现的频率极限,而不是单次实验的结论。单次掷骰子得到“6”完全正常,但掷 6000 次后“6”出现的次数应非常接近 1000。
离散概率分布
当随机变量 X 只能取有限个或可数个离散值时,描述它的工具是概率分布列。对每个可能取值 xi,给出对应的概率 P(X=xi)=,所有概率之和为 :
i∑pi=1
以掷一枚均匀骰子为例,点数 X 的概率分布如下:
这是最简单的均匀分布——每个结果等概率出现。实际的物理问题中,概率分布往往不均匀。以一枚重心偏移的“不均匀硬币”为例,若正面出现的概率 p=0.6,反面的概率 1−p=0.4:
在统计物理中,能量低的微观状态被占据的概率更高——这与后续的玻尔兹曼因子 e−E/kBT 直接对应,是热力学统计描述的核心。
期望值与方差
期望值(均值)⟨X⟩ 是随机变量取值的概率加权平均,代表大量实验的平均结果:
⟨X⟩=i∑xipi
对掷均匀骰子,期望值为:
⟨X⟩=1×61+2×
注意 3.5 不是骰子能出现的点数,它是大量实验结果趋向的平均值。
期望值只告诉了分布的“中心位置”,还需要一个量描述数据的分散程度。方差 Var(X) 定义为偏差平方的期望:
Var(X)=⟨(X−⟨X⟩)2⟩=⟨X2⟩−
标准差 σ 是方差的平方根,与 X 具有相同的量纲,物理意义更为直观:
σ=Var(X)
对掷骰子,先计算 ⟨X2⟩:
⟨X2⟩=612+
Var(X)=15.17−(3.5)2=15.17−12.25≈2.92,σ≈
期望值描述分布的“中心位置”,方差(或标准差)描述分布的“宽窄”。在统计物理中,期望值对应可测量的宏观量,标准差对应该量的涨落幅度。
三个统计量的物理对照:

连续概率分布
许多物理量(如分子速度、粒子位置)可以取连续的实数值,需要用概率密度函数 f(x) 来描述。f(x) 的含义是:随机变量落在 [x,x+dx] 内的概率为 f(x)d。对有限区间积分得到概率:
P(a≤X≤b)=∫abf(x)dx
归一化条件要求:
∫−∞+∞f(x)dx=1
连续分布的期望值与方差计算,将求和替换为积分:
⟨X⟩=∫−∞+∞xf(x)dx
Var(X)=∫−∞+∞(x−⟨X⟩)
以均匀分布为例:在区间 [0,L] 上取 f(x)=1/L,在区间外 f(x)=0。直接积分可得 ⟨X(恰好在区间中点),方差 。这与气体分子在容器中均匀分布的物理图像完全吻合——每个位置等概率出现,平均位置在容器中心。

概率密度函数 f(x) 本身不是概率,它的量纲是概率除以 X 的量纲。只有将 f(x) 对一段区间积分,才能得到该区间内的概率。f(x) 在某点处的值可以大于 1,但对全空间的积分恒等于 。
独立随机变量的叠加
设 X1,X2,…,XN 是 N 个相互独立的随机变量,各自的期望值和方差分别为 和 。定义它们的总和 ,则:
⟨SN⟩=i=1∑Nμi
Var(SN)=i=1∑Nσi
方差的可加性要求随机变量相互独立,这是关键假设。若所有 Xi 同分布(均值 μ、方差 σ2),则:
⟨SN⟩=Nμ,σSN
相对涨落(标准差与均值之比)为:
⟨SN⟩σSN
随着 N 增大,相对涨落按 1/N 衰减,绝对涨落在增大,而相对于均值的涨落在缩小。下表展示了这种趋势:
当 N=1023 时,相对涨落约为 10−12,远低于任何仪器的分辨率。宏观量之所以高度稳定,原因不是粒子运动变得“整齐”,而是大量随机量叠加后相对涨落极小——这正是热力学规律得以精确成立的统计学根基。
二项分布
抛一枚硬币 N 次,每次正面出现的概率为 p,反面的概率为 1−p。N 次独立实验中恰好出现 n 次正面的概率,由二项分布给出:
P(n;N,p)=(nN)pn(1−
其中组合数 (nN)=n!(N−n)!N! 计算了从 次实验中选出 次“成功”的方案总数。二项分布的期望值与方差:
⟨n⟩=Np,Var(n)=Np(1−p),σn
以 N=4、p=1/2 为例,列出完整分布:
期望值 ⟨n⟩=4×0.5=2,标准差 σ=4×0.5×0.5。出现 2 次正面的概率最大(37.5%),偏离越远概率越小,分布关于均值对称。
二项分布在统计物理中有直接的物理类比:将容器分为体积相等的左右两半,每个气体分子以概率 p=1/2 出现在左半。N 个分子中恰好有 n 个在左半的概率,精确地由二项分布描述。当 N 非常大时,几乎所有分子几乎均等地分布在两侧——偏离均值的概率按指数规律衰减,这正是气体自发均匀分布的统计学根源。
二项分布的物理意义在于:宏观上“理所当然”的均匀分布,在微观上是统计规律的必然结果,而非某种神秘的“斥力”。绝大多数微观状态对应于接近均匀的宏观分布,偏离均匀的状态数量极少——热力学第二定律的根基正在于此。
高斯近似
当 N 很大时,直接计算组合数 (nN) 极为困难。利用斯特林近似 ln(N!)≈NlnN−,可以证明:当 且 在均值附近时,二项分布收敛到高斯(正态)分布:
P(n)≈2πNp(1−p)
这是均值为 μ=Np、标准差为 σ=Np(1−p) 的高斯函数,呈现出标志性的“钟形”曲线,关于均值左右对称,在 处有拐点。
高斯分布的几个重要性质:

这被称为“68–95–99.7 规则”,在实验误差估计和数据分析中广泛使用。
以 N=100 次抛硬币(p=0.5)为例:均值 μ=50,标准差 σ=5。正面次数落在 的概率约为 ,落在 的概率约为 。对气体中的粒子分布, 时,,而相对涨落 ,远低于任何实验仪器的分辨能力——宏观上气体密度看起来完全均匀。
从二项分布到高斯分布的过渡,是统计物理中最重要的数学结论之一。无论原始分布的形状如何,大量独立随机变量的总和总趋向于高斯分布——这就是中心极限定理的核心思想。热力学的稳定性与确定性,最终都来源于这一深刻的数学规律。
练习
选择题
掷一枚均匀骰子,点数大于 4 的概率为
A. 61 B. 31 C. D.
答案:B
点数大于 4 的结果为 {5,6},共 2 个,样本空间共 6 个等可能结果,故:
P=6
某随机变量 X 的分布为:P(X=1)=0.2,P(X=2)=0.5,,期望值 为
A. 1.8 B. 2.0 C. 2.1 D. 2.5
答案:C
⟨X⟩=1×0.2+2×0.5+3×0.3=0.2+1.0+
抛一枚均匀硬币 3 次,恰好出现 2 次正面的概率为
A. 81 B. 82 C. D.
答案:C
由二项分布公式,N=3,n=2,p=1/2:
某测量值服从正态分布,均值 μ=50,标准差 σ=2。测量值落在区间 [46,54] 内的概率约为
A. 68.3% B. 95.4% C. 99.7% D. 50.0%
答案:B
区间 [46,54]=[μ−2σ,μ+2σ],根据高斯分布的“68–95–99.7 规则”,落在均值 ±2σ 内的概率约为 。
计算题
一个容器被隔板分为体积相等的左右两半,其中共有 N=1000 个气体分子,每个分子独立地以概率 p=0.5 出现在左半。设左半的分子数为 n。求:① n 的期望值 ⟨n⟩;② n 的标准差 ;③ 相对于期望值的相对涨落 。
⟨n⟩=Np=1000×0.5=500σ
一个随机变量 X 在区间 [0,4] 上均匀分布,概率密度函数为 f(x)=1/4(区间外为零)。求:① 期望值 ⟨X⟩;② 方差 ;③ 标准差 。
⟨X⟩=∫04x⋅4