条件分布、条件期望与全期望公式
上一章把两个或多个随机变量放在同一个概率模型里,研究联合分布、边缘分布、独立性和相关结构。本章继续问一个更细的问题:如果某个变量的值已经被观察到,另一个变量的分布会怎样改变?
条件分布的核心动作很朴素:先在联合分布中切出与条件相符的部分,再把这一部分重新归一化。条件期望是在这个新分布下重新求平均。全期望公式和全方差公式则把“先分层计算,再合并”的思路写成可计算的公式。
条件分布在问什么
设 X 和 Y 是同一个试验中的两个随机变量。边缘分布 pX(x) 或 fX(x) 回答“只看 X 时它怎样变化”。条件分布 X∣Y=y 回答的是另一个问题:已经知道 Y=y 后,X 的概率质量或密度怎样分配。
离散情形最直接。如果 pX,Y(x,y)=P(X=x,Y=y),且 ,那么
pX∣Y(x∣y)=P(X=x∣
其中
pY(y)=x∑pX,Y(
分母不是装饰,它负责把固定 y 后留下的那一行或那一列重新归一化。没有这一步,数值仍是联合概率,不是条件概率。
固定 Y=1 后取出联合 PMF 的对应行,再除以该行总和 p_Y(1),即可得到条件分布 P(X=x|Y=1)。
看一个小表。设 X 是一次订单中的商品件数,Y 表示订单是否来自会员,Y=1 表示会员。联合 PMF 为
先算 P(Y=1)=0.15+0.30+0.20=0.65。所以
P(X=1∣Y=1)=0.650.15
这三个条件概率加起来等于 1。它们描述的是“在会员订单内部,商品件数如何分布”,不是“会员且买几件”在全体订单中的占比。
条件分布总是相对于已经给定的信息重新计算。pX,Y(x,y) 是同时发生的概率,pX∣Y(x 是在 这个条件下 的概率。两者只差一个分母,但语义差很多。
连续变量中的条件密度
连续情形不能直接写 P(Y=y),因为通常 P(Y=y)=0。这不代表“给定 Y=y”没有意义,而是要用联合密度和边缘密度来定义条件密度。
设 (X,Y) 有联合密度 fX,Y(x,y)。如果 f,定义
fX∣Y(x∣y)=fY
其中
fY(y)=∫−∞∞f
这仍然是“切片再归一化”。固定 y 后,fX,Y(x,y) 作为 x 的函数通常还不是密度,因为它在 x 方向上的积分等于 ,不一定等于 。除以 后,才得到 的条件密度。
固定 Y=y 后在联合密度中取水平切片,再除以对应的边缘密度,归一化得到条件密度。
条件密度可以继续计算区间概率。例如
P(a≤X≤b∣Y=y)=∫ab
不要把 fX∣Y(x∣y) 读成“给定 Y=y 后 X=x 的概率”。它仍是密度,只有对区间积分后才得到概率。
一个均匀三角形区域的例子
设联合密度在三角形区域 0<x<y<1 上为常数 2,其他地方为 0。先求 Y 的边缘密度:
fY(y)=∫0y2dx=2y
因此当 0<y<1 时,
fX∣Y(x∣y)=2y2
也就是说,给定 Y=y 后,X 在区间 (0,y) 上均匀分布。这里的条件信息不是把 X 固定住,而是把 X 的可取范围缩小到 ,再在这个范围内重新归一化。
条件期望是给定信息后的平均
有了条件分布,就能在条件分布下求期望。离散情形中,
E[X∣Y=y]=x∑xpX∣Y
连续情形中,
E[X∣Y=y]=∫−∞∞xf
这个数依赖于 y。如果把每一个可能的 y 都代入,就得到一个函数
m(y)=E[X∣Y=y]
再把随机变量 Y 放回这个函数,得到
E[X∣Y]=m(Y)
所以 E[X∣Y] 本身通常是一个随机变量。它不是一个固定常数,而是“根据观察到的 Y 对 X 做出的条件平均预测”。
条件期望 E[X|Y] 随 Y 取值变化,可写作条件平均函数 m(Y)。
回到会员订单的表格。会员条件下的商品件数平均为
E[X∣Y=1]=1⋅0.650.15+2
非会员条件下的平均为
E[X∣Y=0]=1⋅0.350.18+2
如果只知道一张订单来自会员,就用第一个条件平均;如果只知道来自非会员,就用第二个条件平均;如果还不知道会员状态,就不能随便选其中一个。
E[X∣Y] 可以理解为只使用 Y 所含信息时,对 X 的平均估计。观察到不同的 Y,估计值会随之改变。
全期望公式
全期望公式把条件期望重新合成总体期望。若 Y 是离散变量,则
E[X]=y∑E[X∣Y=y]P(Y=y)
更紧凑的写法是
E[X]=E[E[X∣Y]]
它常被称为迭代期望公式或塔式性质。意思是:先在每个 Y=y 的层里算 X 的平均,再按每层出现的概率加权,得到全体平均。
全期望公式把各层的条件平均 E[X|G=g] 按对应概率 P(G=g) 加权合成为总体平均 E[X]。
用联合 PMF 可以直接看出公式为什么成立:
E[X]=x∑xpX(x)=
交换求和顺序,
E[X]=y∑x∑
内层求和正是 E[X∣Y=y],所以得到
E[X]=y∑E[X∣Y=y]P(Y=y)
连续情形的思想相同,只是求和换成积分:
E[X]=∫−∞∞E[X∣Y=y]f
分层抽样的读法
假设一家公司有三类客服请求:简单、中等、复杂。一次请求的处理时间为 T。如果三类请求的占比分别为 0.50,0.35,0.15,条件平均处理时间分别为 4,9,20 分钟,那么总体平均处理时间不是三组平均数的普通平均,而是
E[T]=4⋅0.50+9⋅0.35+20⋅0.15=8.15
复杂请求平均时间最长,但占比只有 0.15;简单请求平均时间短,但占比大。全期望公式把这两个事实同时保留下来。
遇到“先随机选择类别、批次、人群、场景,再产生观测值”的问题,通常先写出条件平均,再按类别概率加权。这比直接枚举所有观测值更稳。
全方差公式
期望可以先分层再合并,方差也可以。对任意方差存在的随机变量,有
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
这个公式把总体波动拆成两部分。第一项 E[Var(X∣Y)] 是层内波动的平均,描述在每个条件层内部 X 还会怎样散开。第二项 Var(E[X∣Y]) 是层间均值的波动,描述不同条件层的平均水平彼此相差多远。
全方差公式:总体方差可以分解为条件层内波动与层间均值波动之和。
公式可以从恒等式 Var(X)=E[X2]−E[X]2 推出。先用全期望公式处理 X:
E[X2]=E[E[X2∣Y]]
而在给定 Y 的条件下,
Var(X∣Y)=E[X2∣Y]−(E[X∣
所以
E[X2∣Y]=Var(X∣Y)+(E[X∣
两边再取期望:
E[X2]=E[Var(X∣Y)]+E[(E[X∣
于是
Var(X)=E[Var(X∣Y)]+(E[(E[X
括号中的部分就是 Var(E[X∣Y])。
分辨两种波动
仍以客服请求为例。假设三类请求内部的处理时间标准差分别为 1.5,3,6 分钟。总体方差不只由这三个层内标准差决定,还受三类平均处理时间 4,9,20 之间差距影响。
如果三类请求的平均时间很接近,总体波动主要来自每类内部的随机性;如果三类平均时间差得很远,即使每类内部很稳定,总体混在一起后仍可能很分散。
混合分布与分层模型
许多模型都可以写成“先抽一个隐藏层,再按该层生成观测”。设隐藏变量为 Z,观测变量为 X。若 Z 离散,则边缘分布可写成
pX(x)=z∑pX∣Z
连续观测时相应写为
fX(x)=z∑fX∣Z
这就是混合分布。Z 可以表示人群、设备状态、天气类型、请求难度、生产批次,也可以是模型中看不见的潜在类别。
先抽层,再按层内分布生成观测;各层按概率加权后形成总体观测分布。
混合分布的期望和方差直接由本章公式给出:
E[X]=E[E[X∣Z]]
Var(X)=E[Var(X∣Z)]+Var(E[X∣Z])
例如等待时间 X 可能来自两个状态:普通时段和拥堵时段。普通时段概率为 0.8,平均等待 3 分钟;拥堵时段概率为 0.2,平均等待 12 分钟。总体平均等待时间是
E[X]=3⋅0.8+12⋅0.2=4.8
这个 4.8 分钟并不表示每个状态都接近 4.8。它是把两个状态混在一起后的平均。如果只观察到“现在是拥堵时段”,合理的条件平均应回到 12 分钟。
常见错误
忘记归一化
只从联合分布中取出一行或一段还不够。条件 PMF 必须对 x 求和为 1,条件密度必须对 x 积分为 1。如果没有除以 pY(y) 或 ,得到的是联合概率或联合密度的切片。
把条件期望当成常数
E[X] 是一个数,E[X∣Y] 通常是 Y 的函数。只有在 X 与 Y 独立,或条件平均刚好不随 变化时, 才会退化成常数 。
把条件密度当作点概率
连续变量中,fX∣Y(x∣y) 是密度,不是 P(X=x∣Y=。讨论概率时要对区间积分。
把分层平均写成普通平均
如果各层概率不同,不能简单平均各层均值。全期望公式用的是按层概率加权的平均。
例题:由联合表得到条件分布和条件期望
设随机变量 X 和 Y 的联合 PMF 为
求 P(X=2∣Y=1)、E[X∣Y=1] 和 E。
先求条件事件的概率。P(Y=1)=0.05+0.25+0.30=0.60。
也可以用全期望公式检验。先算 E[X∣Y=0]=(0⋅0.10+1⋅0.20+2⋅0.10)/0.40,再算
E[X]=E[X∣Y=0]P(Y=0)+E[X∣
代入得到
E[X]=1⋅0.40+0.600.85⋅0.60=1.25
例题:连续条件密度
设 (X,Y) 的联合密度为
fX,Y(x,y)=6x,0<x<y<1
其他地方为 0。求 fX∣Y(x∣y) 和 E[X∣Y=。
对 x 积分得到 Y 的边缘密度:
fY(y)=,其中 。
给定的 y 越大,X 的条件范围越长,条件平均 2y/3 也随之增大。
练习
设 G 表示一个产品来自哪条生产线。三条线的产量占比分别为 0.5,0.3,0.2。产品重量 W 在三条线上的条件均值分别为 100,102,97 克,条件方差分别为 4,9,16。求 和 。
先用全期望公式:
E[W]=100⋅0.5+102⋅0.3+97⋅0.2=100再用全方差公式。层内方差平均为
再考虑一个离散联合分布:
求 P(X=2∣Y=1)、E[X∣Y=0] 和 E。
有 P(Y=1)=0.04+0.18+0.28=0.50,所以
P(X=
本章小结
条件分布来自联合分布的切片和归一化。离散情形除以 pY(y),连续情形除以 fY(y)。条件期望是在条件分布下求平均,E[X∣ 通常是关于 的随机变量。
全期望公式
E[X]=E[E[X∣Y]]
把分层条件平均合成总体平均。全方差公式
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
把总体波动拆成层内波动和层间均值波动。下一章讨论随机变量函数、变量变换和卷积时,这些条件化思路会继续出现:先固定一个变量,分析另一个变量,再把固定条件解除。