生成函数、矩母函数与随机变量和

前面一章用卷积直接处理随机变量函数和随机变量和。卷积的优点是忠实、可见，缺点是算起来容易散开。本章换一个角度：把一个分布编码成一个函数，让“求和”变成“函数相乘”，再从函数的导数里读出矩。

本章有三条主线。第一条是概率生成函数，适合非负整数型随机变量；第二条是矩母函数，适合在零点附近有指数矩的随机变量；第三条是特征函数，它总是存在，是后续学习更一般极限定理时的入口。

为什么要把分布装进函数

设 $X$ 和 $Y$ 是独立随机变量。若我们只看分布本身， $S=X+Y$ 的概率通常要通过卷积计算。离散情形是求和，连续情形是积分：

P(S=k)=\sum_j P(X=j)P(Y=k-j)

f_S(s)=\int_{-\infty}^{\infty} f_X(x)f_Y(s-x)\,dx

生成函数的思想是：先把分布变成一个函数，再在函数层面做代数运算。对独立和来说，卷积对应的复杂求和会变成乘法。最后如果需要概率、期望或方差，再从生成函数中读出来。

本章的“生成”不是说函数凭空创造随机变量，而是说函数把一串概率或一串矩组织起来。PGF 组织非负整数点上的概率，MGF 组织普通矩，特征函数组织一种带振荡权重的平均。

概率生成函数教学插图：离散随机变量的概率柱状图通过箭头对应到生成函数中各项系数，说明系数等于概率。 — PGF 的幂级数系数就是对应取值的概率，所以它特别适合计数型随机变量。

PGF：系数、导数与离散和

若 $X$ 只取非负整数 $0,1,2,\ldots$ ，它的概率生成函数定义为

G_X(s)=E[s^X]=\sum_{k=0}^{\infty} P(X=k)s^k

这里 $s$ 是一个辅助变量。把 $G_X(s)$ 展开成幂级数后， $s^k$ 前面的系数就是 $P(X=k)$ 。因此，如果知道，就能恢复整个分布：

P(X=k)=\frac{G_X^{(k)}(0)}{k!}

PGF 在 $s=1$ 附近的导数还能给出阶乘矩。只要相应期望有限，

G_X(1)=1

G_X'(1)=E[X]

G_X''(1)=E[X(X-1)]

于是方差可以写成

\operatorname{Var}(X)=G_X''(1)+G_X'(1)-\{G_X'(1)\}^2

这个公式里出现的是 $E[X(X-1)]$ ，不是 $E[X^2]$ 。它们的关系是

X^2=X(X-1)+X

PGF 默认用于非负整数型随机变量。若随机变量可能取负值或连续值，直接写 $\sum_k P(X=k)s^k$ 就不再合适。此时通常改用 MGF 或特征函数。

下面的交互可以拖动参数，观察 PGF 的系数、 $s=1$ 处导数和阶乘矩之间的关系。

MGF：零点附近读取普通矩

矩母函数定义为

M_X(t)=E[e^{tX}]

只要 $M_X(t)$ 在 $t=0$ 的某个开区间内有限，就可以把它看成一个很有用的分布编码。因为指数函数的泰勒展开是

e^{tX}=1+tX+\frac{t^2X^2}{2!}+\frac{t^3X^3}{3!}+\cdots

在可以交换期望和求导的条件下，MGF 的各阶导数给出普通矩：

M_X^{(n)}(0)=E[X^n]

特别地，

M_X(0)=1

M_X'(0)=E[X]

M_X''(0)=E[X^2]

所以

\operatorname{Var}(X)=M_X''(0)-\{M_X'(0)\}^2

矩母函数曲线在 t=0 处高亮，并标注 M_X(0)=1、M'_X(0)=E[X]、M''_X(0)=E[X^2]，左侧展示指数加权公式。 — MGF 在 $t=0$ 附近的导数依次读出 $E[X]$ 、 $E[X^2]$ 等普通矩。

有时我们也使用对数矩母函数

K_X(t)=\log M_X(t)

它的前两阶导数有直接含义：

K_X'(0)=E[X]

K_X''(0)=\operatorname{Var}(X)

对数矩母函数的好处是独立和会变成加法。若 $S=X_1+\cdots+X_n$ 且这些随机变量相互独立，则

K_S(t)=K_{X_1}(t)+\cdots+K_{X_n}(t)

下面的交互把常见分布的 MGF 画在 $t=0$ 附近，并显示导数如何对应均值和二阶矩。

独立和的乘法规则

设 $X$ 与 $Y$ 独立， $S=X+Y$ 。对 MGF 来说，

M_S(t)=E[e^{t(X+Y)}]

因为指数把加法变成乘法，

e^{t(X+Y)}=e^{tX}e^{tY}

再用独立性拆开期望，得到

M_S(t)=E[e^{tX}]E[e^{tY}]=M_X(t)M_Y(t)

PGF 也是同样的逻辑。若 $X,Y$ 都是非负整数型，并且相互独立，

G_{X+Y}(s)=G_X(s)G_Y(s)

独立随机变量 X 与 Y 分别进入 e^{tX} 和 e^{tY}，合成为 S = X + Y，并展示 M_S(t) = M_X(t) M_Y(t) 的乘法规则。 — 独立性让期望可以拆开，指数或幂函数让和变成乘积。

“和的生成函数等于生成函数的乘积”需要独立性。若 $Y=X$ ，则 $X+Y=2X$ ，一般不会有 $M_{2X}(t)=M_X(t)^2$ 。这类错误常见于只记住公式、忘了公式条件的时候。

多个独立随机变量也是同理。若 $S_n=X_1+\cdots+X_n$ ，且相互独立，则

M_{S_n}(t)=\prod_{i=1}^n M_{X_i}(t)

若它们还同分布，且共同 MGF 为 $M_X(t)$ ，则

M_{S_n}(t)=\{M_X(t)\}^n

随机个数的和也可以用 PGF 处理。设 $N$ 是非负整数型随机变量， $X_1,X_2,\ldots$ 是独立同分布的非负整数型随机变量，并且 $N$ 与所有 $X_i$ 独立。令

S=X_1+\cdots+X_N

其中 $N=0$ 时约定 $S=0$ 。条件在 $N=n$ 上，

G_{S\mid N=n}(s)=\{G_X(s)\}^n

再对 $N$ 取平均：

G_S(s)=E[\{G_X(s)\}^N]=G_N(G_X(s))

这个公式是复合分布和随机和模型的核心。保险理赔总额、一天内顾客购买件数、网络请求总包数等模型都会遇到这种结构。

下面的模拟器把卷积、PGF 乘法和 MGF 乘法放在同一个画面里。它也能提醒你：一旦没有独立性，乘法规则就不能直接用。

常见分布的生成函数

下面的表只列最常用的形式。表中的几何分布采用“首次成功前失败次数”的版本，取值为 $0,1,2,\ldots$ 。Gamma 分布采用 rate 参数 $\lambda$ ，密度中有 $e^{-\lambda x}$ 。

分布	PGF	MGF	备注
Bernoulli $(p)$	$1-p+ps$	$1-p+pe^t$

二项分布作为 n 个独立 Bernoulli 随机变量之和，并展示对应生成函数、矩母函数和成功次数柱状图。 — 二项分布的生成函数是 Bernoulli 生成函数的 $n$ 次方。

这个表能解释很多常见结论。例如，若 $X_i\sim \operatorname{Bernoulli}(p)$ 相互独立， $S=X_1+\cdots+X_n$ ，则

G_S(s)=\prod_{i=1}^n (1-p+ps)=(1-p+ps)^n

这正是 Binomial $(n,p)$ 的 PGF。因此 $S\sim \operatorname{Binomial}(n,p)$ 。

再看 Poisson。若

X\sim \operatorname{Poisson}(\lambda_1)

Y\sim \operatorname{Poisson}(\lambda_2)

且 $X,Y$ 独立，则

M_{X+Y}(t)=\exp\{\lambda_1(e^t-1)\}\exp\{\lambda_2(e^t-1)\}

M_{X+Y}(t)=\exp\{(\lambda_1+\lambda_2)(e^t-1)\}

所以

X+Y\sim \operatorname{Poisson}(\lambda_1+\lambda_2)

Poisson 可加性示意图，两条独立到达流 X 和 Y 合并为 S=X+Y，参数相加为 λ1+λ2。 — 独立 Poisson 到达流合并后仍是 Poisson，参数变成 $\lambda_1+\lambda_2$ 。

例题：用生成函数算和

例题一：骰子点数和的 PGF

掷一枚公平骰子，令 $X$ 为点数。它的 PGF 是

G_X(s)=\frac{s+s^2+s^3+s^4+s^5+s^6}{6}

若独立掷两次， $S=X_1+X_2$ ，则

G_S(s)=\left(\frac{s+s^2+s^3+s^4+s^5+s^6}{6}\right)^2

求 $P(S=7)$ 。

要找 $P(S=7)$ ，就是找 $G_S(s)$ 中 $s^7$ 的系数。两次点数和为 7 的有序组合为。

这道题用普通计数也很快。PGF 的价值在于：当独立求和次数变多，或者分布不是均匀分布时，同一个思路仍然成立。

例题二：Gamma 同 rate 可加

设 $X\sim \operatorname{Gamma}(\alpha_1,\lambda)$ ， $Y\sim \operatorname{Gamma}(\alpha_2,\lambda)$ ，并且独立。用 MGF 证明的分布。

Gamma $(\alpha,\lambda)$ 的 MGF 是

M(t)=\left(\frac{\lambda}{\lambda-t}\right)^\alpha

这里必须注意“同 rate”。如果两个 Gamma 分布的 rate 不同，MGF 相乘后通常不能合成同一个 Gamma 分布的 MGF。

例题三：随机和的均值

设 $N\sim \operatorname{Poisson}(\lambda)$ ， $X_1,X_2,\ldots$ 独立同分布且与 $N$ 独立。每个是非负整数型，PGF 为。令

S=X_1+\cdots+X_N

前面得到

G_S(s)=G_N(G_X(s))

Poisson $(\lambda)$ 的 PGF 为

G_N(u)=\exp\{\lambda(u-1)\}

所以

G_S(s)=\exp\{\lambda(G_X(s)-1)\}

对 $s$ 求导：

G_S'(s)=\exp\{\lambda(G_X(s)-1)\}\lambda G_X'(s)

令 $s=1$ ，由于 $G_X(1)=1$ ，

E[S]=G_S'(1)=\lambda G_X'(1)=\lambda E[X_1]

这个结果和全期望公式一致：

E[S]=E[E[S\mid N]]=E[NE[X_1]]=\lambda E[X_1]

MGF 的存在性与特征函数入口

MGF 很强，但它不是总能用。定义里有 $e^{tX}$ ，当 $t>0$ 时，右尾较重的分布会被指数权重放大；当 $t<0$ 时，左尾较重的分布会被放大。某些分布的 $M_X(t)$ 可能只在有限，这时它无法在零点附近唯一刻画分布。

MGF 不是总能用的教学信息图，展示 t=0 附近可用邻域、区间外可能发散，以及重尾分布的 MGF 可能只在 t=0 有限。 — 使用 MGF 前要先看它是否在 $0$ 的某个开邻域内有限。

“MGF 相等推出分布相同”通常要求两个 MGF 在 $t=0$ 的某个开区间内都存在，并且在该区间相等。只在单个点 $t=0$ 有限没有判定力，因为所有随机变量都有 $M_X(0)=1$ 。

特征函数避开了这个问题。它定义为

\varphi_X(t)=E[e^{itX}]

其中 $i^2=-1$ 。因为

|e^{itX}|=1

所以 $\varphi_X(t)$ 对所有实数 $t$ 都存在。特征函数也有独立和乘法规则：

\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t)

条件仍然是 $X,Y$ 独立。

特征函数入门直觉图：复平面单位圆上的多个向量 e^{itX} 及其平均 φ_X(t) — 特征函数用单位圆上的有界振荡代替指数增长，因此总是存在。

在本课程里，你只需要把特征函数看成更稳健的 MGF 替代品。后续学习中心极限定理的严格证明时，特征函数会成为处理标准化和极限分布的主要工具。

方法清单与常见错误

遇到随机变量和的问题，可以按下面的顺序判断。

先判断随机变量是否独立。若没有独立性，不能直接把 PGF、MGF 或特征函数相乘。

再判断随机变量类型。非负整数型优先考虑 PGF；连续型或一般实值随机变量可以考虑 MGF。

使用 MGF 前检查存在区间。若 MGF 在 $0$ 的邻域内不存在，改用特征函数，或者回到卷积、条件分布等方法。

常见错误集中在四处。

把 PGF 用到可能取负值或连续取值的随机变量上。
忘记独立性，直接写 $M_{X+Y}=M_XM_Y$ 。
只记住 $M_{X}^{'} (0$ ，却把当成方差；它其实是。

练习

设 $X\sim \operatorname{Poisson}(3)$ ， $Y\sim \operatorname{Poisson}(5)$ ，且 $X,Y$ 独立。求 $X+Y$ 的分布。

用 MGF 或 PGF 都可以。Poisson $(\lambda)$ 的 MGF 是

\exp\{\lambda(e^t-1)\}

所以

M_{X+Y}(t)=\exp\{3(e^t-1)\}\exp\{5(e^t-1)\}

设 $X\sim \operatorname{Binomial}(n,p)$ 。用 PGF 求 $E[X]$ 和 $\operatorname{Var}(X)$ 。

二项分布的 PGF 是

G_X(s)=(1-p+ps)^n

求导：

G_{X}^{'} (s) = n p (1

设 $X_1,\ldots,X_n$ 独立同分布，且 $M_X(t)$ 在附近存在。令。写出的 MGF，并说明如何求。

独立同分布给出

M_{S_n}(t)=\{M_X(t)\}^n

设 $X\sim \operatorname{Exponential}(\lambda)$ 。它的 MGF 为 $\frac{\lambda}{\lambda-t}$ 。为什么不能说这个公式对所有 $t$ 都成立？

因为

M_X(t)=E[e^{tX}]

对指数分布计算时，需要积分

\int_0^\infty e^{tx}\lambda e^{-\lambda x}\,dx

设 $N$ 是非负整数型随机变量， $X_1,X_2,\ldots$ 独立同分布且与 $N$ 独立。若 $S=X_1+\cdots+X_N$ ，写出的 PGF。

条件在 $N=n$ 上，

G_{S\mid N=n}(s)=\{G_X(s)\}^n

X_{1}, \dots, X_{n}

X_1,\ldots,X_n

)

=

E

[

X

]

M_X'(0)=E[X]

-

p

+

p

s

)^{n - 1}

G_X'(s)=np(1-p+ps)^{n-1}

生成函数、矩母函数与随机变量和 | 概率论 I | 自在学