随机变量与分布函数

前几章一直在样本空间里讨论事件。抛两枚硬币时，我们可以说样本空间是 $\Omega=\{HH,HT,TH,TT\}$ ，也可以讨论“至少出现一个正面”这样的事件。可是很多问题真正关心的不是原始结果本身，而是一个数：正面个数、点数和、等待时间、损失金额、测量误差。

随机变量就是完成这一步转换的工具。它把随机试验的结果映射成实数，于是事件运算可以和数轴上的区间、函数、图像接上。分布函数则把一个随机变量的全部概率信息压缩进一个函数里。

随机变量 X 将样本空间 Ω 中的 HH、HT、TH、TT 映射到表示正面个数的数轴 0、1、2。 — 随机变量可以看作从样本空间到数轴的函数：每个随机结果对应一个数值。

从随机结果到数值对象

随机变量 $X$ 是定义在样本空间 $\Omega$ 上、取实数值的函数。也就是说，每个样本点 $\omega$ 都会被 $X$ 指派一个数 $X(\omega)$ 。

X:\Omega\to \mathbb{R}

这句话容易被读得太抽象。看一个具体例子：抛两枚硬币，令 $X$ 表示正面个数。那么

X(HH)=2,\quad X(HT)=1,\quad X(TH)=1,\quad X(TT)=0

在这个例子里， $HT$ 和 $TH$ 是两个不同的样本点，但它们被同一个随机变量映射到同一个数 $1$ 。这很常见：随机变量会保留研究问题关心的信息，也会主动丢掉一些不关心的细节。

随机变量的“随机”来自输入的样本点还没有确定；随机变量本身是一条确定的规则。试验一旦发生，样本点确定下来，随机变量才给出一个具体观测值。

随机变量把原来写在样本空间里的事件改写成数轴上的事件。例如“正面个数至少为 1”可以写成

\{X\ge 1\}=\{\omega\in\Omega:X(\omega)\ge 1\}

在抛两枚硬币的例子中，这个事件就是 $\{HH,HT,TH\}$ 。以后我们常会直接写 $P(X\ge 1)$ ，它的完整含义是“样本点落在使 $X(\omega)\ge 1$ 成立的那部分样本空间中的概率”。

例题：把事件翻译成随机变量语言

抛两枚公平硬币，令 $X$ 为正面个数。求 $P(X=1)$ 和 $P(X\le 1)$ 。

先写出样本空间： $\Omega=\{HH,HT,TH,TT\}$ 。四个样本点等可能，每个概率都是 $1/4$ 。

这个例题看起来很小，但它包含本章的核心动作：先定义函数 $X$ ，再把关于数值的条件翻译回样本空间中的事件，最后计算概率。

分布函数如何读

随机变量有很多可能取值。我们需要一种统一方式描述“它落在各处的概率安排”。最稳定的工具是分布函数，也叫累积分布函数，记作 CDF。

F_X(x)=P(X\le x),\quad -\infty<x<\infty

对任意实数 $x$ ， $F_X(x)$ 都回答同一个问题：随机变量 $X$ 取到不超过 $x$ 的值的概率是多少。

阶梯状分布函数图，在 x=a 处用竖线和阴影标出 P(X ≤ a)，说明累积概率含义。 — 分布函数 $F_X(x)$ 表示随机变量取值不超过 $x$ 的累积概率；图中阴影部分为 $P(X\le a)$ 。

CDF 的图像要从“累积”去读。横轴上的 $x$ 往右移动时，事件 $\{X\le x\}$ 只会变大，不会变小，所以 $F_X(x)$ 单调不下降。它最左边趋近于 $0$ ，最右边趋近于 $1$ ：

\lim_{x\to -\infty}F_X(x)=0,\quad \lim_{x\to \infty}F_X(x)=1

CDF 还有一个本科概率论里经常用到的性质：它是右连续的。直观地说，当 $x$ 从右侧非常靠近某个点时， $F_X(x)$ 的值会靠近该点处的函数值。

\lim_{t\downarrow x}F_X(t)=F_X(x)

右连续性在离散随机变量中尤其明显。若 $X$ 在某点 $a$ 有正概率，CDF 会在 $a$ 处跳一下。因为定义使用的是 $X\le a$ ，所以跳跃后的高度才是 $F_X(a)$ 。

从 CDF 读区间概率时，要留意端点。一般有 $P(a<X\le b)=F_X(b)-F_X(a)$ 。如果想算，还要把的概率补进去，除非已经知道。

CDF 可以统一离散与连续

CDF 的好处是它不要求随机变量必须离散或连续。只要 $X$ 是随机变量， $F_X(x)=P(X\le x)$ 就有意义。后面我们会分别学习 PMF 和 PDF，但它们都可以回到 CDF：

对离散随机变量，CDF 是把每个点上的概率向左累加。
对连续随机变量，CDF 是把密度曲线从左到右积分。
对混合型随机变量，CDF 可能同时有平滑上升和跳跃。

本章先重点处理前两类，混合型分布等到条件分布和随机变量变换中再遇到。

离散随机变量与概率质量函数

如果随机变量 $X$ 的可能取值是有限个或可列无限个，就称 $X$ 为离散随机变量。此时最直接的描述方式是概率质量函数，记作 PMF：

p_X(x)=P(X=x)

PMF 把每个可能取值上的概率列出来。它必须满足两件事：

p_X(x)\ge 0

并且所有可能取值上的概率和为 $1$ ：

\sum_x p_X(x)=1

这里的求和只对 $X$ 可能取到的值求和；不可能取到的点可以看作概率质量为 $0$ 。

三栏对比图，展示 PMF 点概率、PDF 小区间面积概率以及 CDF 累积概率的不同读法。 — PMF 读取点上的概率，PDF 通过曲线下小区间面积表示概率，CDF 表示随机变量不超过某值的累积概率。

离散随机变量的 CDF 可以由 PMF 累加得到：

F_X(x)=\sum_{t\le x}p_X(t)

反过来，若 $X$ 在 $a$ 处有可能取值，则这个点的概率等于 CDF 在 $a$ 处的跳跃大小：

P(X=a)=F_X(a)-F_X(a^-)

其中 $F_X(a^-)$ 表示从左边逼近 $a$ 时的极限。

例题：两枚骰子的点数和

掷两枚公平骰子，令 $S$ 表示点数和。 $S$ 的可能取值是 $2,3,\ldots,12$ ，但这些值不是等可能的。

掷两枚骰子的 36 个等可能结果网格及点数和 S 的概率质量柱状图。 — 掷两枚骰子时，点数和 $S$ 的分布由 36 个等可能结果汇总得到，7 的概率质量最大。

点数和为 $7$ 的结果最多：

(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)

所以

P(S=7)=\frac{6}{36}=\frac{1}{6}

完整的 PMF 是

P(S=s)= \begin{cases} \frac{s-1}{36}, & s=2,3,4,5,6,7,\\ \frac{13-s}{36}, & s=8,9,10,11,12,\\ 0, & \text{其他}. \end{cases}

从这个 PMF 可以立即算 CDF。例如

F_S(5)=P(S\le 5)=\frac{1+2+3+4}{36}=\frac{10}{36}

而

P(5<S\le 8)=F_S(8)-F_S(5)=\frac{1+2+3+4+5+6+5}{36}-\frac{10}{36}=\frac{16}{36}

常见误区：把取值等可能当成结果等可能

骰子的 $36$ 个有序结果等可能，但点数和的 $11$ 个取值不等可能。把“样本点等可能”误读成“随机变量的取值等可能”，会把 $P(S=7)$ 错算成 $1/11$ 。

判断一个随机变量的取值是否等可能，不能只看取值列表有多长。要看每个取值背后对应多少个样本点，以及这些样本点本身的概率是否相同。

连续随机变量与密度的第一眼

有些随机变量的取值不适合逐点列出。例如公交等待时间、电子元件寿命、测量误差等，常用连续模型描述。连续随机变量的一个典型特征是：单个点的概率通常为 $0$ ，但区间概率可以是正的。

如果存在非负函数 $f_X(x)$ ，使得对任意 $a<b$ 都有

P(a<X\le b)=\int_a^b f_X(x)\,dx

那么 $f_X$ 称为 $X$ 的概率密度函数，记作 PDF。

密度函数也必须满足归一化条件：

f_X(x)\ge 0,\quad \int_{-\infty}^{\infty}f_X(x)\,dx=1

连续随机变量等待时间的密度曲线与分布函数关系图，左侧标出 a 到 b 的区间概率，右侧标出累计到 x 的概率。 — 等待时间型连续随机变量的密度函数与分布函数关系：区间面积对应区间概率，分布函数对应累计概率。

PDF 与 CDF 的关系可以写成

F_X(x)=P(X\le x)=\int_{-\infty}^x f_X(t)\,dt

在 $F_X$ 可导的点上，也有

f_X(x)=F_X'(x)

这里要小心一句话： $f_X(x)$ 不是 $P(X=x)$ 。密度可以大于 $1$ ，也不直接表示概率；区间下方的面积才是概率。

例题：一个简单连续模型

假设等待时间 $T$ 在 $0$ 到 $10$ 分钟之间均匀分布。直观上，每个长度相同的时间区间有相同概率。它的密度函数是

f_T(t)= \begin{cases} \frac{1}{10}, & 0\le t\le 10,\\ 0, & \text{其他}. \end{cases}

于是等待不超过 $3$ 分钟的概率是

F_T(3)=P(T\le 3)=\int_0^3 \frac{1}{10}\,dt=0.3

等待时间落在 $4$ 到 $7$ 分钟之间的概率是

P(4<T\le 7)=\int_4^7 \frac{1}{10}\,dt=0.3

而某个精确时刻，比如恰好 $4$ 分钟，概率为

P(T=4)=\int_4^4 \frac{1}{10}\,dt=0

这不是说“恰好 4 分钟不可能发生”，而是说在连续模型中，单个点没有长度，概率被分配到区间上。

随机变量不是一次观测值

实际使用中，很多混乱来自把三个对象混在一起：随机变量、分布、观测值。

随机变量、分布与一次观测值的三层关系图。 — 一次观测值 $x$ 来自分布，但不等于整个随机变量 $X$ 。

随机变量 $X$ 是规则。它说明一次随机试验的结果如何被转成数。分布描述 $X$ 的所有可能取值以及相应概率。观测值 $x$ 是一次试验之后看到的具体数。

例如测量某零件长度误差时，可以令 $X$ 表示“测量误差”。在测量之前， $X$ 是随机变量；我们可能用一个以 $0$ 为中心的连续分布描述它。测量之后得到 $x=0.03$ 毫米，这是一次观测值。一次观测值不能代表整个分布，也不能反过来改变随机变量的定义。

大写字母 $X$ 常用于随机变量，小写字母 $x$ 常用于它的一个可能取值或一次观测值。这只是记号习惯，却能帮你避免把“规则”“概率安排”和“实际看到的数”混在一起。

同一个试验可以定义多个随机变量

一次随机试验可以派生出多个随机变量。掷两枚骰子，除了点数和 $S$ ，还可以定义最大点数 $M$ 、是否出现至少一个 $6$ 的指示变量 $I$ 、两枚点数差的绝对值 $D$ 。

这些随机变量共享同一个样本空间，但分布不同。选择哪个随机变量，取决于问题问的是什么。

I= \begin{cases} 1, & \text{至少出现一个 }6,\\ 0, & \text{没有出现 }6. \end{cases}

这里 $I$ 是一个只取 $0$ 和 $1$ 的随机变量。它把复杂样本点压缩成“事件是否发生”的数字表达。后面学习期望时，指示随机变量会非常有用。

怎样从题目中建立随机变量

建立随机变量时，不要急着套分布名称。先把“试验是什么”“数值规则是什么”“概率如何分配”分开。

先确认样本空间。题目中的基本随机结果是什么？是一次抽样的名单、一串硬币结果、两个骰子的有序点数，还是一个连续时间？

再定义随机变量。把每个样本点映射成题目真正关心的数，并明确记号，例如 $X$ 表示成功次数， $T$ 表示等待时间。

接着判断类型。若可能取值可以列出来，优先考虑 PMF；若用区间和面积描述更自然，可能需要 PDF 与 CDF。

一个小型建模例子

某网站记录用户从打开页面到点击按钮的等待时间。若我们只关心“是否在 5 秒内点击”，可以定义指示随机变量

I= \begin{cases} 1, & \text{5 秒内点击},\\ 0, & \text{超过 5 秒或未点击}. \end{cases}

这时 $I$ 是离散随机变量。若我们关心精确等待时长，则可以定义 $T$ 为点击等待时间，这通常需要连续或带有混合成分的模型。两个随机变量来自同一批行为数据，但回答的问题不同。

本章小结

随机变量把样本空间中的随机结果变成数轴上的对象。定义随机变量时，先想清楚它是一条从 $\Omega$ 到 $\mathbb{R}$ 的规则，而不是试验后看到的那个数。

分布函数 $F_X(x)=P(X\le x)$ 是描述随机变量分布的统一工具。离散随机变量可以用 PMF 描述，CDF 是 PMF 的累加；连续随机变量可以用 PDF 描述，CDF 是 PDF 的积分。读图时记住：离散 CDF 的跳跃大小给出点概率，连续 PDF 的面积给出区间概率。

后续章节会分别展开常见离散分布和连续分布。本章的任务不是记住很多分布名称，而是把“样本空间、随机变量、分布函数、PMF、PDF”之间的关系摆正。

练习

练习一

抛三枚公平硬币，令 $X$ 表示正面个数。写出 $X$ 的 PMF，并求 $F_X(1)$ 。

三枚硬币共有 $8$ 个等可能结果。正面个数为 $0,1,2,3$ 的结果数分别是 $1,3,3,1$ ，所以

P (X = 0) = \frac{1}{8}, P (X = 1) = \frac{3}{8}, P (X = 2) = \frac{3}{8}, P (X

练习二

某离散随机变量 $Y$ 的 PMF 为

P(Y=0)=0.2,\quad P(Y=2)=0.5,\quad P(Y=5)=0.3

求 $F_Y(1)$ 、 $F_Y(2)$ 和 $P(1<Y\le 5)$ 。

因为 $Y\le 1$ 只包含取值 $0$ ，所以

F_Y(1)=0.2

因为 $Y\le 2$ 包含取值和，所以

练习三

设连续随机变量 $Z$ 的密度为

f_Z(z)= \begin{cases} 2z, & 0\le z\le 1,\\ 0, & \text{其他}. \end{cases}

求 $F_Z(z)$ 在 $0\le z\le 1$ 上的表达式，并求 $P(0.3<Z\le 0.8)$ 。

当 $0\le z\le 1$ 时，

F_Z(z)=\int_0^z 2t\,dt=z^2

练习四

判断下面说法是否正确：如果一个连续随机变量的密度在 $x=2$ 处等于 $1.4$ ，那么 $P(X=2)=1.4$ 。

这个说法不正确。密度函数的高度不是点概率，连续随机变量在单点处的概率通常为 $0$ 。密度为 $1.4$ 只说明在 $x=2$ 附近很短的小区间内，概率大约等于密度高度乘以区间长度。真正的概率来自面积，而不是单点高度。

=

3

)

=

\frac{1}{8}

P(X=0)=\frac{1}{8},\quad P(X=1)=\frac{3}{8},\quad P(X=2)=\frac{3}{8},\quad P(X=3)=\frac{1}{8}

随机变量与分布函数 | 概率论 I | 自在学