条件概率、全概率公式与 Bayes 公式

前几章讨论概率时，默认我们站在完整样本空间里看事件。知道新信息以后，问题会变得不同：一枚骰子掷出偶数后，再问它是否大于 $3$ ；检测结果呈阳性后，再问真正患病的概率；邮件已经被系统标记为可疑后，再问它是不是垃圾邮件。这些问题都不是在原来的样本空间里直接数比例，而是在“已知某件事发生”的前提下重新计量。

本章的三组公式处理的正是这种信息更新。条件概率回答“已知 $B$ 后， $A$ 的概率是多少”；全概率公式把事件按不同来源分块相加；Bayes 公式则在看到结果后反推来源。它们不是三套孤立技巧，而是同一张概率树上的三个视角。

条件概率概念图，展示已知事件 B 发生后，将样本空间缩小到 B，并在 B 中重新计量 A 与 B 同时发生的比例 — 条件概率可以理解为：在已知 $B$ 发生后，只在 $B$ 内重新观察 $A$ 所占的比例，即 $P(A\mid B)=P(A\cap B)/P(B)$ 。

条件概率：在已知范围内重新计量

设 $A$ 和 $B$ 是同一样本空间中的事件，且 $P(B)>0$ 。在已知 $B$ 已经发生的条件下， $A$ 发生的条件概率定义为

P(A\mid B)=\frac{P(A\cap B)}{P(B)}

分子 $P(A\cap B)$ 表示 $A$ 和 $B$ 同时发生的概率。分母 $P(B)$ 表示我们已经缩小到的范围。这个定义可以读成一句话：在所有 $B$ 发生的情况里，有多大比例也让 $A$ 发生。

条件概率不是把 $A$ 和 $B$ 的概率简单相除，而是先取交集，再除以已知事件的概率。分母必须是“已经知道发生”的那个事件。

例题：已知骰子点数为偶数

掷一枚公平骰子。令 $A$ 表示“点数大于 $3$ ”，令 $B$ 表示“点数为偶数”。求 $P(A\mid B)$ 。

先写出已知事件： $B=\{2,4,6\}$ 。条件已经告诉我们结果落在这个集合里，所以后面只在这三个点中比较。

再看 $A$ 与的交集。事件，所以。

若用定义式计算，也得到同样结果：

P(A\mid B)=\frac{P(A\cap B)}{P(B)} =\frac{2/6}{3/6} =\frac{2}{3}

这个例子提醒我们，条件概率的第一步不是代公式，而是确认条件把样本空间缩到了哪里。

条件的方向不能随意交换

$P(A\mid B)$ 与 $P(B\mid A)$ 通常不同。前者是在 $B$ 已经发生的范围里看 $A$ ，后者是在 $A$ 已经发生的范围里看。它们的分子同为，但分母不同：

P(A\mid B)=\frac{P(A\cap B)}{P(B)},\quad P(B\mid A)=\frac{P(A\cap B)}{P(A)}

比如“已知一个学生会高等数学，求他是否会线性代数”与“已知一个学生会线性代数，求他是否会高等数学”不是同一个问题。两个问题都涉及同一批同时会两门课的人，但参照人群不同。

看到竖线 $|$ 时，可以先把它读成“在……已经发生的条件下”。竖线右边是新的参照范围，不能在计算中丢掉。

乘法公式与概率树

由条件概率定义式移项，就得到乘法公式：

P(A\cap B)=P(B)P(A\mid B)

如果 $P(A)>0$ ，同一个交集也可以写成

P(A\cap B)=P(A)P(B\mid A)

乘法公式适合处理“先发生一步，再在这一步的条件下发生下一步”的问题。它把联合事件拆成一条路径上的概率乘积。

条件概率乘法公式的横向概率树，突出从 B 到 A 的路径并写出 P(A∩B)=P(B)P(A|B) — 沿概率树路径相乘，可得到交事件概率： $P(A\cap B)=P(B)P(A\mid B)$ 。

例题：不放回抽球

袋中有 $3$ 个红球、 $2$ 个蓝球。连续抽两次，不放回。求“两次都抽到红球”的概率。

令 $R_1$ 表示第一次抽到红球， $R_2$ 表示第二次抽到红球。目标事件是 $R_1\cap R_2$ 。

如果题目改成“有放回”，第二次抽球前袋子的组成没有改变， $P(R_2\mid R_1)=3/5$ 。同一个乘法公式仍然成立，改变的是条件概率本身。

多个事件的链式乘法

乘法公式可以继续展开。只要前面条件事件的概率为正，就有

P(A_1\cap A_2\cap \cdots \cap A_n) =P(A_1)P(A_2\mid A_1)P(A_3\mid A_1\cap A_2)\cdots P(A_n\mid A_1\cap\cdots\cap A_{n-1})

这条公式在抽样、排队、可靠性和马尔可夫链入门中都会反复出现。它的直观含义很朴素：要让一整串事情都发生，就按真实顺序把每一步“在之前已经成功的条件下继续成功”的概率乘起来。

全概率公式：先分块，再相加

很多问题里，事件 $A$ 可能来自不同情形。若 $B_1,B_2,\ldots,B_n$ 两两互斥，并且合起来覆盖整个样本空间：

B_i\cap B_j=\varnothing\quad (i\ne j),\qquad \bigcup_{i=1}^n B_i=\Omega

这样的事件组叫作一个完备事件组。在它们的帮助下，事件 $A$ 可以被拆成互不重叠的几块：

A=(A\cap B_1)\cup(A\cap B_2)\cup\cdots\cup(A\cap B_n)

由于这些块互不重叠，可以把概率相加，再用乘法公式改写每一块：

P(A)=\sum_{i=1}^n P(A\cap B_i) =\sum_{i=1}^n P(B_i)P(A\mid B_i)

这就是全概率公式。它的计算顺序是：先按 $B_i$ 分层，再在每一层里计算 $A$ 的条件概率，最后把各层贡献加起来。

全概率公式分块示意图，样本空间 S 被分成四个互不重叠的事件块 B1 至 B4，每块中事件 A 的覆盖面积不同 — 完备事件组将样本空间分块后，可在每个分块中计算事件 $A$ 的条件概率，并相加得到全概率公式。

例题：三条生产线的次品率

某工厂的产品来自三条生产线。甲线产量占 $50\%$ ，次品率 $1\%$ ；乙线产量占 $30\%$ ，次品率 $2\%$ ；丙线产量占 $20\%$ ，次品率 $4\%$ 。随机抽取一件产品，求它是次品的概率。

令 $D$ 表示“抽到次品”，令 $B_1,B_2,B_3$ 分别表示产品来自甲、乙、丙三条线。三条来源互不重叠并覆盖全部产品，因此可以使用全概率公式。

写出各来源概率： $P(B_1)=0.5$ ， $P(B_2)=0.3$ ，。

P(D)=0.5\cdot 0.01+0.3\cdot 0.02+0.2\cdot 0.04=0.019

所以随机抽到次品的概率是 $1.9\%$ 。这个结果不是三个次品率的普通平均数，因为三条生产线的产量占比不同。

全概率公式中的 $P(B_i)$ 是权重， $P(A\mid B_i)$ 是每个分层中的条件概率。若各层所占比例不同，就不能直接把条件概率做算术平均。

使用全概率公式前要检查分块

全概率公式最常见的错误是分块不完整或互相重叠。比如把学生按“喜欢数学”“喜欢物理”“喜欢计算机”分组，通常不是完备事件组，因为一个学生可能同时喜欢几门课，也可能一门都不在其中。若强行套公式，某些样本点会被重复计算或漏掉。

合适的分块应当回答两个问题：

任意一次试验结果是否一定落入某一块？
任意一次试验结果是否最多只落入一块？

两个问题都回答“是”，才可以直接把这些块作为全概率公式中的 $B_i$ 。

Bayes 公式：看到结果后反推来源

全概率公式通常按“来源 $\to$ 结果”计算。Bayes 公式反过来：我们已经看到结果 $A$ ，现在想知道它来自某个来源 $B_k$ 的概率。

由条件概率定义，

P(B_k\mid A)=\frac{P(A\cap B_k)}{P(A)}

再把分子写成 $P(B_k)P(A\mid B_k)$ ，把分母用全概率公式展开，就得到

P(B_k\mid A) =\frac{P(B_k)P(A\mid B_k)}{\sum_{i=1}^n P(B_i)P(A\mid B_i)}

这就是 Bayes 公式。它把一个来源的“先验概率” $P(B_k)$ 和该来源产生证据的可能性 $P(A\mid B_k)$ 合在一起，并用所有来源产生证据的总概率归一化。

Bayes 公式反向更新示意图，左侧展示原因 B1、B2、B3 推出证据 A，右侧展示看到证据 A 后更新原因概率 — Bayes 公式把“原因推出证据”的条件概率，转化为“看到证据后反推原因”的后验概率。

接着生产线例题反推来源

仍看三条生产线的例子。已知随机抽到的一件产品是次品，求它来自丙线的概率。

目标是 $P(B_3\mid D)$ 。上一节已经算出

P(D)=0.019

丙线产生次品这条路径的贡献是

P(B_3)P(D\mid B_3)=0.2\cdot 0.04=0.008

因此

P(B_3\mid D)=\frac{0.008}{0.019}\approx 0.421

虽然丙线只生产 $20\%$ 的产品，但它的次品率较高；在已经看到“次品”这个证据后，产品来自丙线的概率上升到约 $42.1\%$ 。

Bayes 公式的三步写法

先列出可能来源 $B_1,\ldots,B_n$ ，确认它们构成完备事件组。若来源没有覆盖全部情况，分母会漏项。

这个三步写法比直接背公式更稳。尤其在题目文字较长时，先画概率树或列路径贡献表，能减少把 $P(A\mid B)$ 和 $P(B\mid A)$ 写反的风险。

基率谬误：为什么阳性不等于患病

Bayes 公式最容易挑战直觉的地方，是低基率问题。设某疾病在人群中的患病率为 $1\%$ 。一种检测对患病者的阳性率是 $95\%$ ，对未患病者的假阳性率是 $5\%$ 。现在某人检测阳性，求他真正患病的概率。

很多人会下意识回答“接近 $95\%$ ”。但 $95\%$ 是 $P(+\mid D)$ ，表示“患病时检测阳性”的概率；题目问的是 $P(D\mid +)$ ，方向已经反过来了。

基率谬误自然频数图：10000 人检测中，患病 100 人含真阳性 95 人，未患病 9900 人含假阳性 495 人，阳性者中患病约 16.1% — 10000 人检测的自然频数视角：阳性者中患病概率为 $95/(95+495)\approx 16.1\%$ 。

用 Bayes 公式计算：

P(D\mid +)=\frac{P(D)P(+\mid D)}{P(D)P(+\mid D)+P(D^c)P(+\mid D^c)}

代入数字：

P(D\mid +)=\frac{0.01\cdot 0.95}{0.01\cdot 0.95+0.99\cdot 0.05} =\frac{0.0095}{0.059} \approx 0.161

所以检测阳性后的患病概率约为 $16.1\%$ ，远低于 $95\%$ 。这不是检测“不准”，而是因为未患病者人数太多，即使只有 $5\%$ 假阳性，也会形成不少阳性结果。

用自然频数重算一遍

把比例换成 $10000$ 人，更容易看出结构：

患病者约 $100$ 人，其中检测阳性约 $95$ 人。
未患病者约 $9900$ 人，其中假阳性约 $495$ 人。
检测阳性者共约 $95+495=590$ 人。

于是

P(D\mid +)\approx \frac{95}{590}\approx 0.161

自然频数的好处是把 Bayes 公式的分母具象化了。它不是“检测阳性率”，而是“所有会产生阳性结果的路径”。

基率谬误通常来自忽略 $P(D)$ 和 $P(D^c)$ 的规模差异。只看检测灵敏度或只看某条路径的条件概率，都不足以回答反向问题。

把公式放回同一张概率树

条件概率、全概率公式和 Bayes 公式可以统一在概率树中理解。

条件概率题判断路线中文流程图，从读题已知什么分支到条件概率、全概率、Bayes 公式和概率树 — 条件概率题判断路线：先识别条件，再选择对应公式或概率树。

如果题目已经告诉你某个事件发生，只要求在这个条件下另一个事件的概率，就先写条件概率定义。若题目描述了多个互斥来源，并要求某个结果的总概率，就使用全概率公式。若题目已经观察到结果，并要求某个来源的可能性，就使用 Bayes 公式。

这三类问题常常连续出现。比如生产线例题中，先用乘法公式计算每条“来源且次品”的路径贡献，再用全概率公式求次品总概率，最后用 Bayes 公式反推次品来自某条生产线的概率。

一个通用检查表

先标清楚目标概率。是 $P(A\mid B)$ 、 $P(A)$ ，还是 $P(B_k\mid A)$ ？目标写错，后面的计算通常会跟着错。

练习

一个盒子中有 $4$ 个白球和 $6$ 个黑球，连续不放回抽两次。已知第一次抽到白球，求第二次抽到白球的概率。

已知第一次抽到白球后，盒中还剩 $3$ 个白球和 $6$ 个黑球，共 $9$ 个球，所以第二次抽到白球的条件概率为 $3/9=1/3$ 。

某班学生中， $40\%$ 来自甲组， $60\%$ 来自乙组。甲组通过某测验的概率为 $80\%$ ，乙组通过概率为 $50\%$ 。随机抽一名学生，求他通过测验的概率。

令 $A$ 表示通过测验， $B_1,B_2$ 表示来自甲组、乙组。由全概率公式：

P(A)=0.4\cdot 0.8+0.6\cdot 0.5=0.62

接着上一题，已知某学生通过了测验，求他来自甲组的概率。

目标是 $P(B_1\mid A)$ 。甲组通过这条路径的贡献为 $0.4\cdot 0.8=0.32$ ，通过总概率为 $0.62$ ，所以

P (B_{1} ∣ A

本章小结

条件概率把样本空间缩小到已知事件内：

P(A\mid B)=\frac{P(A\cap B)}{P(B)}

乘法公式把联合事件写成路径概率：

P(A\cap B)=P(B)P(A\mid B)

全概率公式把目标事件分解到完备事件组中：

P(A)=\sum_{i=1}^n P(B_i)P(A\mid B_i)

Bayes 公式在看到证据后反推来源：

P(B_k\mid A) =\frac{P(B_k)P(A\mid B_k)}{\sum_{i=1}^n P(B_i)P(A\mid B_i)}

做题时不要先问“该套哪个公式”，而要先问“题目给了什么信息结构”。条件概率看参照范围，全概率看分块，Bayes 看反向更新。把这三点抓住，本章的大多数计算都会落到清楚的路径和分母上。

B

B

)

=

\frac{0.32}{0.62}

\approx

0.516

P(B_1\mid A)=\frac{0.32}{0.62}\approx 0.516

条件概率、全概率公式与 Bayes 公式 | 概率论 I | 自在学