离散随机变量与常见离散分布

前一章把随机变量看成“把随机试验结果映射到数轴上的函数”。这一章只讨论其中一类：随机变量可能取有限个值，或取可数无限个值。它们的概率不是铺在一段区间上，而是落在一个个孤立的点上。

学习常见离散分布时，最容易犯的错误是先背公式，再硬套题目。更稳的顺序是先问：随机变量在数什么？一次成败、固定次数内的成功个数、等到成功所需次数、无放回抽样中的成功个数、固定窗口里的事件个数，分别会把我们带到不同的分布。

先判断随机变量在数什么

离散分布通常来自一个清楚的计数问题。公式只是这个计数问题的压缩写法。

常见离散分布选择地图信息图，按随机变量所计数的对象引导选择 Bernoulli、Binomial、Geometric、Negative Binomial、Hypergeometric、Poisson 和离散均匀分布。 — 常见离散分布选择地图：从一次成败、固定次数成功数、等待首次或第 r 次成功、无放回抽样、稀有事件数和有限等可能取值等建模问题选择分布。

下面这张表先给出本章的主线。表里的“支持集”指随机变量可能取到的全部数值。

分布	随机变量在数什么	典型支持集	建模关键词
Bernoulli	一次试验是否成功	$0,1$	一次、成败、指示变量
Binomial	固定 $n$ 次独立试验中的成功次数	$0,1,\ldots,n$	有放回、独立、同一成功概率
Geometric	等到第 $1$ 次成功所需的总试验次数	$1,2,\ldots$	等待、首次成功
Negative Binomial	等到第 $r$ 次成功所需的总试验次数	$r,r+1,\ldots$	等待、第 $r$ 次成功
Hypergeometric	有限总体无放回抽样中的成功次数	一段整数区间	无放回、有限总体
Poisson	固定时间或空间窗口里的事件个数	$0,1,2,\ldots$	稀有事件、平均率
离散均匀	有限个等可能数值之一	$a,a+1,\ldots,b$	等可能、有限整数

同样是“数成功次数”，也可能对应不同分布。固定次数、独立同概率、有放回的成败试验常用 Binomial；有限总体中不放回抽样常用 Hypergeometric。判断分布时，先看抽样机制，再看公式。

用 PMF 读懂离散随机变量

离散随机变量 $X$ 的概率质量函数，简称 PMF，记为

p_X(k)=P(X=k)

它必须满足两个条件：

p_X(k)\ge 0

\sum_{k\in S}p_X(k)=1

其中 $S$ 是 $X$ 的支持集。每个 $k$ 像数轴上的一个钉子， $p_X(k)$ 是落在这颗钉子上的概率。

四联图比较 Bernoulli、Binomial、Geometric、Poisson 的离散概率质量函数柱状形状 — PMF 将离散随机变量的每个可能取值表示为一根概率柱，四联图展示一次成败、固定次数成功数、等待首次成功与稀有事件计数的典型形状。

如果要算区间概率，就把对应点上的概率相加。例如

P(a\le X\le b)=\sum_{k=a}^{b}P(X=k)

这和连续随机变量不同。离散情形下，单点概率 $P(X=k)$ 通常不为 $0$ ；连续情形下，单点概率为 $0$ ，需要用区间和密度来表达概率。

Bernoulli 与 Binomial：一次成败到成功次数

Bernoulli 分布

一次试验只有两种结果：成功记为 $1$ ，失败记为 $0$ 。若成功概率是 $p$ ，则

X\sim Bernoulli(p)

它的 PMF 是

P(X=x)=p^x(1-p)^{1-x},\quad x=0,1

也就是

P(X=1)=p,\quad P(X=0)=1-p

Bernoulli 分布常用来描述指示变量。若事件 $A$ 发生记 $I_A=1$ ，不发生记 $I_A=0$ ，那么

I_A\sim Bernoulli(P(A))

它的均值和方差是

E(X)=p,\quad Var(X)=p(1-p)

Binomial 分布

现在把同样的成败试验独立重复 $n$ 次，每次成功概率都是 $p$ 。令 $X$ 表示成功次数，则

X\sim Binomial(n,p)

8 次独立同概率成败试验相加得到成功次数 X 的示意图，显示 5 次成功、3 次失败及公式 X=I₁+I₂+...+Iₙ。 — 将固定次数 n 下独立、同概率 p 的成败试验相加，得到成功次数 X。

它的 PMF 是

P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\quad k=0,1,\ldots,n

这个公式可以从三件事读出来：先选出哪 $k$ 次成功，有 $\binom{n}{k}$ 种；这 $k$ 次成功的概率是 $p^k$ ；其余次失败的概率是。

它的均值和方差是

E(X)=np,\quad Var(X)=np(1-p)

例题：某题库中每道选择题答对概率为 $0.7$ 。学生独立作答 $10$ 道题，令 $X$ 为答对题数。求恰好答对 $8$ 道题的概率。

先判断模型。题目给出固定题数 $n=10$ ，每道题只有答对和答错两种结果，且假设独立、同一答对概率 $p=0.7$ ，所以 $X\sim Binomial(10,0.7)$ 。

Binomial 的关键不是“有 $n$ 次”，而是这 $n$ 次是否可以看成独立、同成功概率的 Bernoulli 试验。如果每次成功概率明显变化，或抽样时不放回且总体不大，就不能直接套二项分布。

Geometric 与 Negative Binomial：等待成功

Geometric 分布

Binomial 数的是固定次数内成功了几次；Geometric 数的是等到第一次成功需要几次。

本章采用“总试验次数”版本：若独立重复 Bernoulli 试验，每次成功概率为 $p$ ，令 $X$ 为首次成功发生时的总试验次数，则

X\sim Geometric(p)

它的 PMF 是

P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\ldots

前 $k-1$ 次必须失败，第 $k$ 次成功。因此 PMF 里有 $(1-p)^{k-1}$ 和最后的 $p$ 。

它的均值和方差是

E(X)=\frac{1}{p},\quad Var(X)=\frac{1-p}{p^2}

Geometric 分布还有一个重要性质：无记忆性。对正整数 $s,t$ ，

P(X>s+t\mid X>s)=P(X>t)

意思是：已经连续失败了 $s$ 次之后，再等多久才成功，分布和从头开始等一样。这个性质依赖“每次试验独立且成功概率不变”。

Negative Binomial 分布

如果目标不是等第 $1$ 次成功，而是等第 $r$ 次成功，就得到负二项分布。仍采用“总试验次数”版本：令 $X$ 为达到第 $r$ 次成功所需的总试验次数，则

X\sim NegativeBinomial(r,p)

它的 PMF 是

P(X=k)=\binom{k-1}{r-1}p^r(1-p)^{k-r},\quad k=r,r+1,\ldots

为什么组合数是 $\binom{k-1}{r-1}$ ？因为第 $k$ 次必须是第 $r$ 次成功，前 $k-1$ 次中要恰好有次成功。

它的均值和方差是

E(X)=\frac{r}{p},\quad Var(X)=\frac{r(1-p)}{p^2}

两条试验时间线比较 Geometric 等第 1 次成功和 Negative Binomial 等第 r 次成功：上方为败、败、败、成并标 X=4；下方圈出第 r=3 个成并标 X=总试验次数。 — Geometric 记录等到第 1 次成功的总试验次数；Negative Binomial 记录等到第 r 次成功的总试验次数，等待时间包含最后一次成功。

负二项分布有两种常见记法。有些教材让 $X$ 表示第 $r$ 次成功前的失败次数，此时支持集从 $0$ 开始。本章让 $X$ 表示达到第 $r$ 次成功所需的总试验次数，因此支持集从 $r$ 开始。做题时先看随机变量的文字定义。

Hypergeometric：不放回抽样的成功数

设总体中共有 $N$ 个对象，其中 $K$ 个被称为“成功”，其余 $N-K$ 个为“失败”。从总体中不放回抽取 $n$ 个，令 $X$ 为抽到的成功个数，则

X\sim Hypergeometric(N,K,n)

超几何分布无放回抽样示意图：总体 N=30，成功 K=10，失败 N-K=20，抽取 n=6 后有 2 个成功 — 超几何分布展示有限总体中无放回抽样的成功个数及组合数结构。

可取的 $k$ 必须满足两个限制：不能抽到比总体中更多的成功，也不能因为失败数量不够而被迫少于某个成功数。支持集可以写成

\max(0,n-(N-K))\le k\le \min(n,K)

它的 PMF 是

P(X=k)=\frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}

分母是在 $N$ 个对象中抽 $n$ 个的全部方式。分子先从 $K$ 个成功对象中抽 $k$ 个，再从 $N-K$ 个失败对象中抽 $n-k$ 个。

它的均值和方差是

E(X)=n\frac{K}{N}

Var(X)=n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}

最后那个因子

\frac{N-n}{N-1}

叫有限总体修正。无放回抽样会让抽样结果之间产生负相关，所以方差比同参数的二项分布更小。

例题：一批 $20$ 个零件中有 $5$ 个次品。随机不放回抽取 $4$ 个，求恰好抽到 $2$ 个次品的概率。

把“次品”看作成功。总体大小 $N=20$ ，成功数 $K=5$ ，抽样数 $n=4$ ，随机变量 $X$ 表示抽到次品的个数。

Poisson：稀有事件的计数模型

Poisson 分布常用于固定观察窗口中的事件计数，例如某段时间内的电话到达数、某页稿件中的错字数、某段道路上的事故数。这里的“窗口”可以是时间、长度、面积或体积。

若 $X$ 表示固定窗口中的事件个数，且平均事件数为 $\lambda$ ，则

X\sim Poisson(\lambda)

它的 PMF 是

P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,2,\ldots

它的均值和方差相同：

E(X)=\lambda,\quad Var(X)=\lambda

Poisson 分布教学图，展示固定观察窗口中的稀有事件计数，以及二项分布在 n 大、p 小、np=λ 时近似为 Poisson 分布。 — Poisson 分布用于固定时间或空间窗口中的稀有事件计数；当 n 大、p 小且 np=λ 时，二项分布可近似为 Poisson 分布。

Poisson 模型通常隐含三个近似假设：观察窗口固定；事件率在窗口中近似稳定；相互独立的小片段里同时发生多个事件的概率很小。

Poisson 也可以看成二项分布的稀有事件近似。当 $n$ 很大、 $p$ 很小，并且 $\lambda=np$ 保持适中时，

\binom{n}{k}p^k(1-p)^{n-k}\approx e^{-\lambda}\frac{\lambda^k}{k!}

例题：某客服系统平均每分钟收到 $3$ 个请求。若用 Poisson 模型描述一分钟内请求数 $X$ ，求一分钟内恰好收到 $5$ 个请求的概率。

这里的观察窗口是一分钟，平均事件数是 $\lambda=3$ ，所以 $X\sim Poisson(3)$ 。

不是所有“计数数据”都适合 Poisson。若事件会聚集出现，或不同时间段的事件率差异很大，方差往往会大于均值。这时直接使用单一 $\lambda$ 的 Poisson 模型会低估尾部概率。

离散均匀分布：有限等可能取值

如果随机变量在有限个整数值之间等可能取值，就可以使用离散均匀分布。设

S=\{a,a+1,\ldots,b\}

其中共有

m=b-a+1

个可能值。若每个值概率相同，则

P(X=k)=\frac{1}{m},\quad k=a,a+1,\ldots,b

均值和方差是

E(X)=\frac{a+b}{2}

Var(X)=\frac{m^2-1}{12}

掷一颗公平骰子的点数就是 $a=1,b=6$ 的离散均匀分布。抽取一个随机整数、随机选择一个编号座位、从有限编号中等概率抽签，也常会出现这种分布。

离散均匀分布看起来简单，但它提醒我们一件事：分布不只是公式，还包括“哪些值可能出现”以及“这些值的概率如何分配”。当题目说“随机选一个对象”时，必须先确认是否真的等可能。

分布之间的近似与选择

常见离散分布之间不是孤立的。理解它们的关系，可以减少机械记忆。

关系	条件	直观解释
Bernoulli 是 Binomial 的特例	$n=1$	一次成败就是一次 Bernoulli
Geometric 是 Negative Binomial 的特例	$r=1$	等第 1 次成功就是首次成功等待时间
Hypergeometric 近似 Binomial	$N$ 很大且 $n/N$ 很小	不放回对概率的影响很弱
Binomial 近似 Poisson	$n$ 大、小、

选分布时，可以按下面的顺序问：

先写清楚随机变量 $X$ 的含义。它是一次成败、成功次数、等待时间、抽样中的成功个数，还是固定窗口中的事件个数？

再写支持集。若 $X$ 只能是 $0$ 到 $n$ ，就不该使用支持集无限的 Geometric 或 Poisson；若从开始，就要留意是不是等待首次成功。

掌握离散分布的核心，是把“数什么”和“怎样产生这些数”说清楚。只要随机变量定义、支持集和机制三件事对上，公式通常会跟着变得自然。

练习

练习一：某应用向用户推送一条提醒，用户点击的概率为 $0.18$ 。令 $X$ 表示这名用户是否点击。写出 $X$ 的分布、PMF、均值和方差。

$X$ 只有点击和不点击两种结果，可以令点击为 $1$ ，不点击为 $0$ 。因此

X\sim Bernoulli(0.18)

PMF 为

P (X = x) = {0.18}^{x} (0.82)^{1 -}

练习二：某机器加工零件的合格率为 $0.96$ 。假设每个零件是否合格相互独立，抽查 $15$ 个零件，令 $X$ 为合格个数。求 $P(X\ge 14)$ 。

固定抽查 $15$ 个，每个零件合格概率相同且独立，所以

X\sim Binomial(15,0.96)

所求概率为

P(X\ge 14)=P(X=14)+P(X=15)

练习三：某在线报名系统中，每个访问者成功提交的概率为 $0.25$ ，且可近似看成独立。令 $X$ 表示等到第 $3$ 个成功提交所需的访问者总数。写出 $P(X=8)$ 。

这是等待第 $r=3$ 次成功的总试验次数，所以

X\sim NegativeBinomial(3,0.25)

第 $8$ 个访问者必须是第个成功提交者，前个访问者中恰好有个成功提交。因此

练习四：一个班有 $40$ 名学生，其中 $12$ 人参加过数学竞赛。随机不放回抽取 $6$ 人，令 $X$ 表示抽到参加过竞赛的人数。写出 $X$ 的分布和 $P(X=2)$ 。

这是有限总体无放回抽样。总体大小 $N=40$ ，成功数 $K=12$ ，抽样数 $n=6$ ，所以

X\sim Hypergeometric(40,12,6)

练习五：某网站平均每小时出现 $1.5$ 次服务器报警。若用 Poisson 模型描述报警次数，求两小时内没有报警的概率。

两小时的平均报警次数为

\lambda=2\cdot 1.5=3

令 $X$ 为两小时内报警次数，则 $X\sim Poisson(3)$ 。没有报警即 $X=0$ ，所以

小结

本章的每个分布都可以用同一个框架整理：随机变量定义、支持集、PMF、参数含义、均值和方差。真正决定分布的不是题目里出现了“成功”“等待”“计数”这些词，而是试验机制。

Binomial 适合固定次数、独立同概率的成败试验；Geometric 和 Negative Binomial 适合等待成功；Hypergeometric 适合有限总体不放回抽样；Poisson 适合固定窗口中的稀有事件计数；离散均匀分布适合有限等可能取值。后续学习期望、方差、联合分布和极限定理时，这些分布会反复出现。

x

,

x

=

0

,

1

P(X=x)=0.18^x(0.82)^{1-x},\quad x=0,1

离散随机变量与常见离散分布 | 概率论 I | 自在学