离散随机变量与常见离散分布
前一章把随机变量看成“把随机试验结果映射到数轴上的函数”。这一章只讨论其中一类:随机变量可能取有限个值,或取可数无限个值。它们的概率不是铺在一段区间上,而是落在一个个孤立的点上。
学习常见离散分布时,最容易犯的错误是先背公式,再硬套题目。更稳的顺序是先问:随机变量在数什么?一次成败、固定次数内的成功个数、等到成功所需次数、无放回抽样中的成功个数、固定窗口里的事件个数,分别会把我们带到不同的分布。
先判断随机变量在数什么
离散分布通常来自一个清楚的计数问题。公式只是这个计数问题的压缩写法。
常见离散分布选择地图:从一次成败、固定次数成功数、等待首次或第 r 次成功、无放回抽样、稀有事件数和有限等可能取值等建模问题选择分布。
下面这张表先给出本章的主线。表里的“支持集”指随机变量可能取到的全部数值。
同样是“数成功次数”,也可能对应不同分布。固定次数、独立同概率、有放回的成败试验常用 Binomial;有限总体中不放回抽样常用 Hypergeometric。判断分布时,先看抽样机制,再看公式。
用 PMF 读懂离散随机变量
离散随机变量 X 的概率质量函数,简称 PMF,记为
pX(k)=P(X=k)
它必须满足两个条件:
pX(k)≥0
k∈S∑pX(k)=1
其中 S 是 X 的支持集。每个 k 像数轴上的一个钉子,pX(k) 是落在这颗钉子上的概率。
PMF 将离散随机变量的每个可能取值表示为一根概率柱,四联图展示一次成败、固定次数成功数、等待首次成功与稀有事件计数的典型形状。
如果要算区间概率,就把对应点上的概率相加。例如
P(a≤X≤b)=k=a∑bP(X=
这和连续随机变量不同。离散情形下,单点概率 P(X=k) 通常不为 0;连续情形下,单点概率为 0,需要用区间和密度来表达概率。
Bernoulli 与 Binomial:一次成败到成功次数
Bernoulli 分布
一次试验只有两种结果:成功记为 1,失败记为 0。若成功概率是 p,则
X∼Bernoulli(p)
它的 PMF 是
P(X=x)=px(1−p)1−x,x=
也就是
P(X=1)=p,P(X=0)=1−p
Bernoulli 分布常用来描述指示变量。若事件 A 发生记 IA=1,不发生记 IA=0,那么
IA∼Bernoulli(P(A))
它的均值和方差是
E(X)=p,Var(X)=p(1−p)
Binomial 分布
现在把同样的成败试验独立重复 n 次,每次成功概率都是 p。令 X 表示成功次数,则
X∼Binomial(n,p)
将固定次数 n 下独立、同概率 p 的成败试验相加,得到成功次数 X。
它的 PMF 是
P(X=k)=(kn)pk(1
这个公式可以从三件事读出来:先选出哪 k 次成功,有 (kn) 种;这 k 次成功的概率是 pk;其余 次失败的概率是 。
它的均值和方差是
E(X)=np,Var(X)=np(1−p)
例题:某题库中每道选择题答对概率为 0.7。学生独立作答 10 道题,令 X 为答对题数。求恰好答对 8 道题的概率。
先判断模型。题目给出固定题数 n=10,每道题只有答对和答错两种结果,且假设独立、同一答对概率 p=0.7,所以 X∼Bin。
Binomial 的关键不是“有 n 次”,而是这 n 次是否可以看成独立、同成功概率的 Bernoulli 试验。如果每次成功概率明显变化,或抽样时不放回且总体不大,就不能直接套二项分布。
Geometric 与 Negative Binomial:等待成功
Geometric 分布
Binomial 数的是固定次数内成功了几次;Geometric 数的是等到第一次成功需要几次。
本章采用“总试验次数”版本:若独立重复 Bernoulli 试验,每次成功概率为 p,令 X 为首次成功发生时的总试验次数,则
X∼Geometric(p)
它的 PMF 是
P(X=k)=(1−p)k−1p,k=1,2,
前 k−1 次必须失败,第 k 次成功。因此 PMF 里有 (1−p)k−1 和最后的 p。
它的均值和方差是
E(X)=p1,Var(X)=p
Geometric 分布还有一个重要性质:无记忆性。对正整数 s,t,
P(X>s+t∣X>s)=P(X>t)
意思是:已经连续失败了 s 次之后,再等多久才成功,分布和从头开始等一样。这个性质依赖“每次试验独立且成功概率不变”。
Negative Binomial 分布
如果目标不是等第 1 次成功,而是等第 r 次成功,就得到负二项分布。仍采用“总试验次数”版本:令 X 为达到第 r 次成功所需的总试验次数,则
X∼NegativeBinomial(r,p)
它的 PMF 是
P(X=k)=(r−1k−1)p
为什么组合数是 (r−1k−1)?因为第 k 次必须是第 r 次成功,前 k− 次中要恰好有 次成功。
它的均值和方差是
E(X)=pr,Var(X)=p
Geometric 记录等到第 1 次成功的总试验次数;Negative Binomial 记录等到第 r 次成功的总试验次数,等待时间包含最后一次成功。
负二项分布有两种常见记法。有些教材让 X 表示第 r 次成功前的失败次数,此时支持集从 0 开始。本章让 X 表示达到第 r 次成功所需的总试验次数,因此支持集从 r 开始。做题时先看随机变量的文字定义。
Hypergeometric:不放回抽样的成功数
设总体中共有 N 个对象,其中 K 个被称为“成功”,其余 N−K 个为“失败”。从总体中不放回抽取 n 个,令 X 为抽到的成功个数,则
X∼Hypergeometric(N,K,n)
超几何分布展示有限总体中无放回抽样的成功个数及组合数结构。
可取的 k 必须满足两个限制:不能抽到比总体中更多的成功,也不能因为失败数量不够而被迫少于某个成功数。支持集可以写成
max(0,n−(N−K))≤k≤min(n,K)
它的 PMF 是
P(X=k)=(nN)
分母是在 N 个对象中抽 n 个的全部方式。分子先从 K 个成功对象中抽 k 个,再从 N−K 个失败对象中抽 n−k 个。
它的均值和方差是
E(X)=nNK
Var(X)=nNK(1−N
最后那个因子
N−1N−n
叫有限总体修正。无放回抽样会让抽样结果之间产生负相关,所以方差比同参数的二项分布更小。
例题:一批 20 个零件中有 5 个次品。随机不放回抽取 4 个,求恰好抽到 2 个次品的概率。
把“次品”看作成功。总体大小 N=20,成功数 K=5,抽样数 n=4,随机变量 X 表示抽到次品的个数。
Poisson:稀有事件的计数模型
Poisson 分布常用于固定观察窗口中的事件计数,例如某段时间内的电话到达数、某页稿件中的错字数、某段道路上的事故数。这里的“窗口”可以是时间、长度、面积或体积。
若 X 表示固定窗口中的事件个数,且平均事件数为 λ,则
X∼Poisson(λ)
它的 PMF 是
P(X=k)=e−λk!λ
它的均值和方差相同:
E(X)=λ,Var(X)=λ
Poisson 分布用于固定时间或空间窗口中的稀有事件计数;当 n 大、p 小且 np=λ 时,二项分布可近似为 Poisson 分布。
Poisson 模型通常隐含三个近似假设:观察窗口固定;事件率在窗口中近似稳定;相互独立的小片段里同时发生多个事件的概率很小。
Poisson 也可以看成二项分布的稀有事件近似。当 n 很大、p 很小,并且 λ=np 保持适中时,
(kn)pk(1−p)n−k
例题:某客服系统平均每分钟收到 3 个请求。若用 Poisson 模型描述一分钟内请求数 X,求一分钟内恰好收到 5 个请求的概率。
这里的观察窗口是一分钟,平均事件数是 λ=3,所以 X∼Poisson(3)。
不是所有“计数数据”都适合 Poisson。若事件会聚集出现,或不同时间段的事件率差异很大,方差往往会大于均值。这时直接使用单一 λ 的 Poisson 模型会低估尾部概率。
离散均匀分布:有限等可能取值
如果随机变量在有限个整数值之间等可能取值,就可以使用离散均匀分布。设
S={a,a+1,…,b}
其中共有
m=b−a+1
个可能值。若每个值概率相同,则
P(X=k)=m1,k=a,a+1
均值和方差是
E(X)=2a+b
Var(X)=12m2−1
掷一颗公平骰子的点数就是 a=1,b=6 的离散均匀分布。抽取一个随机整数、随机选择一个编号座位、从有限编号中等概率抽签,也常会出现这种分布。
离散均匀分布看起来简单,但它提醒我们一件事:分布不只是公式,还包括“哪些值可能出现”以及“这些值的概率如何分配”。当题目说“随机选一个对象”时,必须先确认是否真的等可能。
分布之间的近似与选择
常见离散分布之间不是孤立的。理解它们的关系,可以减少机械记忆。
选分布时,可以按下面的顺序问:
先写清楚随机变量 X 的含义。它是一次成败、成功次数、等待时间、抽样中的成功个数,还是固定窗口中的事件个数?
再写支持集。若 X 只能是 0 到 n,就不该使用支持集无限的 Geometric 或 Poisson;若 从 开始,就要留意是不是等待首次成功。
掌握离散分布的核心,是把“数什么”和“怎样产生这些数”说清楚。只要随机变量定义、支持集和机制三件事对上,公式通常会跟着变得自然。
练习
练习一:某应用向用户推送一条提醒,用户点击的概率为 0.18。令 X 表示这名用户是否点击。写出 X 的分布、PMF、均值和方差。
X 只有点击和不点击两种结果,可以令点击为 1,不点击为 0。因此
X∼Bernoulli(0.18)PMF 为
练习二:某机器加工零件的合格率为 0.96。假设每个零件是否合格相互独立,抽查 15 个零件,令 X 为合格个数。求 P(X≥14)。
固定抽查 15 个,每个零件合格概率相同且独立,所以
X∼Binomial(15,0.96)所求概率为
P(X≥14)
练习三:某在线报名系统中,每个访问者成功提交的概率为 0.25,且可近似看成独立。令 X 表示等到第 3 个成功提交所需的访问者总数。写出 P(X=8)。
这是等待第 r=3 次成功的总试验次数,所以
X∼NegativeBinomial(3,0.25)第 8 个访问者必须是第 个成功提交者,前 个访问者中恰好有 个成功提交。因此
练习四:一个班有 40 名学生,其中 12 人参加过数学竞赛。随机不放回抽取 6 人,令 X 表示抽到参加过竞赛的人数。写出 X 的分布和 P(X=2)。
这是有限总体无放回抽样。总体大小 N=40,成功数 K=12,抽样数 n=6,所以
X∼
练习五:某网站平均每小时出现 1.5 次服务器报警。若用 Poisson 模型描述报警次数,求两小时内没有报警的概率。
两小时的平均报警次数为
λ=2⋅1.5=3令 X 为两小时内报警次数,则 X∼Poisson(3)。没有报警即 ,所以
小结
本章的每个分布都可以用同一个框架整理:随机变量定义、支持集、PMF、参数含义、均值和方差。真正决定分布的不是题目里出现了“成功”“等待”“计数”这些词,而是试验机制。
Binomial 适合固定次数、独立同概率的成败试验;Geometric 和 Negative Binomial 适合等待成功;Hypergeometric 适合有限总体不放回抽样;Poisson 适合固定窗口中的稀有事件计数;离散均匀分布适合有限等可能取值。后续学习期望、方差、联合分布和极限定理时,这些分布会反复出现。