条件概率：信息会改变概率

体检报告显示某项检测为阳性，你会马上判断自己大概率患病吗？天气预报说“今天有雨”，你看到早晨云层很厚后，会不会改变带伞的决定？邮箱收到一封主题里有“免费”和“中奖”的邮件，系统为什么会把它推向垃圾箱？

这些问题的共同点是：我们不是在没有信息时猜测，而是在新信息出现后重新判断概率。条件概率研究的就是这种更新：当某件事已经发生、某条线索已经出现、某个检测结果已经知道时，原来的概率该怎么改。

新信息把原来的概率判断更新为新的判断

一条新信息通常不会直接给出结论，它会改变我们看待各种可能性的权重。

本节的核心问题不是“概率怎么算得更快”，而是“分母到底是谁”。很多条件概率错误都来自同一个地方：题目已经把观察范围换掉了，但计算时还在用原来的总体。

一个阳性结果，说明了什么？

先看一个容易误判的情境。某疾病在人群中的患病率是 $1\%$ 。一种检测对真正患病者有 $95\%$ 的概率测出阳性，对未患病者有 $90\%$ 的概率测出阴性。现在一个人检测为阳性，他患病的概率是多少？

很多人会脱口而出“约 $95\%$ ”。这个答案把两件事混在了一起：

$P(\text{阳性}|\text{患病})$ ：已经知道患病，检测阳性的概率。
$P(\text{患病}|\text{阳性})$ ：已经知道阳性，真的患病的概率。

这两个概率方向相反，通常不相等。用 10000 人做自然频数会更清楚：

先按患病率把人群分开。10000 人中约有 100 人患病，9900 人未患病。

对 100 名患病者应用检测敏感度。检测能找出其中约 95 人，所以真阳性约为 95 人。

对 9900 名未患病者应用检测特异度。既然 $90\%$ 会测出阴性，就有 $10\%$ 会误测为阳性，所以假阳性约为 990 人。

检测阳性的人共有 $95+990=1085$ 人，其中真正患病的是 95 人。因此阳性后的患病概率约为 $95/1085$ ，也就是 $8.8\%$ 。

医学检测中的真阳性和假阳性自然频数图

低患病率下，假阳性可能比真阳性多得多；阳性结果仍然重要，但不能脱离基础率解读。

这个结论不表示检测“没用”。阳性结果把患病概率从 $1\%$ 提高到了约 $8.8\%$ ，已经改变了判断。只是它没有把概率直接推到 $95\%$ 。现实医疗判断还会结合症状、复检、风险人群和其他证据，这里只是在说明条件概率的结构。

条件概率：换一个观察范围

如果事件 $B$ 已经发生，我们只在 $B$ 这个范围里讨论事件 $A$ 的概率，就得到条件概率，记作 $P(A|B)$ ，读作“在 $B$ 发生的条件下， $A$ 发生的概率”。

当 $P(B)>0$ 时，定义是：

P(A|B)=\frac{P(A\cap B)}{P(B)}

这个公式最重要的部分不是分子，而是分母。分母从“全部可能”换成了“已经满足 $B$ 的可能”。分子则是在这个新范围里同时满足 $A$ 的部分。

条件概率把样本空间缩小到条件事件所在的区域

条件概率不是把 $A$ 单独拿出来看，而是在 $B$ 已经发生的新范围里看 $A$ 。

举一个简单例子。随机抽一名学生，设：

$A$ ：这名学生参加校篮球队。
$B$ ：这名学生是高二学生。

$P(A)$ 问的是全校随机抽一人参加篮球队的概率； $P(A|B)$ 问的是在高二学生中随机抽一人参加篮球队的概率。如果高二有专门的篮球训练班，这两个概率就可能差很多。

看到“已知”“在……中”“如果已经”“检测结果为”“邮件包含”“早晨出现”等字样时，先停一下：题目很可能已经换了观察范围。不要急着套原来的总人数或原来的概率。

乘法公式：沿着路径算概率

条件概率公式可以改写为乘法公式：

P(A\cap B)=P(B)\cdot P(A|B)

也可以写成：

P(A\cap B)=P(A)\cdot P(B|A)

它的意思很朴素：要同时发生两件事，可以先走到第一件事，再从那里走到第二件事。沿着一条路径走，每一步都乘上对应的条件概率。

例如，某地早晨多云的概率是 $30\%$ 。如果早晨多云，下午下雨的概率是 $60\%$ 。那么“早晨多云且下午下雨”的概率是：

P(\text{多云}\cap \text{下雨})=0.30\times 0.60=0.18

也就是 $18\%$ 。

天气条件概率树展示路径乘法

概率树里的每一条完整路径都表示一种联合情况，路径上的概率相乘。

条件概率树特别适合处理“先分组，再看结果”的问题。每个分叉都要问：这一段概率是在什么条件下给出的？如果分叉已经走到了“多云”，下一步的“下雨概率”就是 $P(\text{下雨}|\text{多云})$ ，不是无条件的下雨概率。

独立性：信息没有改变概率

如果知道 $B$ 发生后， $A$ 的概率没有改变，就说 $A$ 与 $B$ 独立。用公式表示：

P(A|B)=P(A)

在 $P(A)>0$ 且 $P(B)>0$ 的情况下，也可以等价地写成：

P(A\cap B)=P(A)\cdot P(B)

独立性的意思不是“两件事不能同时发生”，而是“知道其中一件事，对另一件事的概率没有帮助”。

抛两枚公平硬币时，第一枚是正面不会改变第二枚是正面的概率，所以两个结果独立。可是从一副牌中不放回抽两张，第一张是否为红桃会改变第二张为红桃的概率，所以两次抽牌结果不独立。

独立事件和相关事件的对照示意图

独立性看的是信息是否改变概率，不是看两个事件能不能同时发生。

“互斥”和“独立”经常被混淆。互斥是两件事不能同时发生；独立是知道一件事后，另一件事的概率不变。两个概率都大于 0 的互斥事件不可能独立，因为一旦知道其中一个发生，另一个的概率立刻变成 0。

全概率公式：从不同路径汇合

很多事件不是从一条路发生的，而是从几条不同来源汇合而来。比如下午下雨可能来自“早晨多云”的路径，也可能来自“早晨晴朗但午后转雨”的路径。总概率就是把这些互不重叠的路径加起来。

如果 $B_1,B_2,\ldots,B_n$ 把样本空间分成互不重叠且合起来完整的几部分，那么：

P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+\cdots+P(A|B_n)P(B_n)

也可以写成求和形式：

P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i)

这就是全概率公式。它适合处理“先看来源，再看结果”的问题。

继续天气例子。早晨多云的概率是 $0.30$ ，晴朗的概率是 $0.70$ 。多云后下雨概率是 $0.60$ ，晴朗后下雨概率是 $0.10$ 。那么下午下雨的总概率是：

P(\text{下雨})=0.60\times 0.30+0.10\times 0.70=0.25

所以，在没有进一步信息时，下午下雨概率是 $25\%$ 。

做全概率题时，可以先画一棵树。树的第一层是“来源”或“类型”，第二层是目标事件是否发生。每条通向目标事件的路径相乘，所有目标路径相加。

贝叶斯思想：把问题反过来

全概率公式常常和贝叶斯公式一起出现。贝叶斯公式解决的是“看到结果后，反推来源”的问题。

如果 $B_1,B_2,\ldots,B_n$ 是完整且互不重叠的来源，那么看到 $A$ 发生后，来源是 $B_j$ 的概率为：

P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)}

这个公式看起来长，其实就是两句话：

分子： $B_j$ 这条来源路径产生 $A$ 的概率。
分母：所有来源路径产生 $A$ 的总概率。

所以贝叶斯思想不是神秘技巧，而是“某条解释路径占所有可能解释路径的比例”。

用垃圾邮件过滤来看。假设邮箱里垃圾邮件比例是 $20\%$ 。垃圾邮件含有“免费”这个词的概率是 $60\%$ ，正常邮件含有“免费”的概率是 $5\%$ 。一封新邮件出现“免费”，它是垃圾邮件的概率约为：

P(\text{垃圾}|\text{免费})=\frac{0.60\times 0.20}{0.60\times 0.20+0.05\times 0.80}=0.75

一个词把概率从 $20\%$ 提高到了 $75\%$ 。如果邮件里又出现“中奖”“限时”等词，系统会继续更新判断；如果出现“会议纪要”“课程安排”等词，判断可能又下降。实际垃圾邮件系统会处理更多线索，并会注意线索之间不一定独立。

垃圾邮件过滤根据词语线索更新概率判断

每个线索都像一小段证据：它不直接等于结论，但会推高或拉低某个解释的概率。

常见误区：概率换方向会变

条件概率最常见的错误不是算术，而是读题方向。

把 $P(A|B)$ 当成 $P(B|A)$

“患病者检测阳性的概率很高”不等于“检测阳性者患病的概率很高”。前者从患病者中看检测结果，后者从阳性者中看真实状态。观察范围不同，分母不同。

忽略基础率

如果某个事件本来极少见，即使检测或线索很强，阳性后的概率也可能没有想象中高。基础率就是更新前的起点。没有起点，证据强度很容易被误读。

把“看起来有关”当成独立

独立性不能靠直觉喊出来，要看概率是否改变。雨天和带伞显然有关；抽卡不放回前后也有关。即使两个事件没有明显因果，也可能因为共同背景而相关。

把路径概率和条件概率混在一起

在概率树上，某一段分支上的 $60\%$ 可能是“多云条件下下雨”的概率；整条路径的 $18\%$ 才是“多云且下雨”的概率。读树时要分清“一段”和“一条完整路径”。

检查条件概率题时，可以问自己三句话：现在已知什么？我要在已知范围里数什么？分母是不是已经换成了这个范围？

练习

练习 1：从表格读条件概率

某班 40 名学生中，18 人参加社团，22 人不参加社团；参加社团者中有 12 人喜欢统计课，不参加社团者中有 8 人喜欢统计课。随机选一名学生。

求 $P(\text{喜欢统计课}|\text{参加社团})$ 。

条件已经限定为“参加社团”，所以分母是 18，不是全班 40。参加社团且喜欢统计课的人有 12 人，因此：

P(\text{喜欢统计课}|\text{参加社团})=\frac{12}{18}=\frac{2}{3}

练习 2：判断是否独立

某活动中，随机抽一人。设 $A$ 为“此人报名摄影”， $B$ 为“此人报名写作”。已知 $P(A)=0.30$ ， $P(B)=0.40$ ， $P(A\cap B)=0.12$ 。判断 $A$ 与 $B$ 是否独立。

如果独立，应有：

P(A\cap B)=P(A)P(B)

右边为：

0.30\times 0.40=0.12

这正好等于已知的 $P(A\cap B)$ ，所以在这些数据下， $A$ 与 $B$ 独立。

练习 3：条件概率树

某城市早晨堵车的概率是 $0.25$ 。如果早晨堵车，当天迟到的概率是 $0.50$ ；如果早晨不堵车，当天迟到的概率是 $0.08$ 。求当天迟到的总概率。

把“迟到”按早晨是否堵车拆成两条路径：

P(\text{迟到})=P(\text{迟到}|\text{堵车})P(\text{堵车})+P(\text{迟到}|\text{不堵车})P(\text{不堵车})

代入：

P(\text{迟到})=0.50\times 0.25+0.08\times 0.75=0.185

所以当天迟到的总概率是 $18.5\%$ 。

练习 4：反推来源

接着练习 3。如果某天已经知道这名同学迟到了，求早晨堵车的概率。

要算的是 $P(\text{堵车}|\text{迟到})$ 。分子是“堵车且迟到”的路径概率：

P(\text{堵车}\cap \text{迟到})=0.25\times 0.50=0.125

分母是练习 3 中算出的迟到总概率 $0.185$ 。因此：

P(\text{堵车}|\text{迟到})=\frac{0.125}{0.185}\approx 0.676

已经知道迟到后，早晨堵车的概率约为 $67.6\%$ 。

练习 5：医学检测再算一次

某病患病率为 $2\%$ 。检测对患病者测出阳性的概率是 $90\%$ ，对未患病者测出阴性的概率是 $95\%$ 。如果某人检测阳性，估计他患病的概率。

用 10000 人做自然频数。患病者约 200 人，其中真阳性：

200\times 0.90=180

未患病者约 9800 人，假阳性率是 $5\%$ ，所以假阳性：

9800\times 0.05=490

阳性者共有 $180+490=670$ 人，其中真患病者 180 人：

P(\text{患病}|\text{阳性})=\frac{180}{670}\approx 0.269

阳性后的患病概率约为 $26.9\%$ 。

小结

条件概率的直觉可以压缩成一句话：新信息会换掉观察范围。只要范围变了，分母就变了，概率也可能随之改变。

本节需要带走的工具有五个：

条件概率用 $P(A|B)$ 表示，意思是在 $B$ 已经发生的范围里看 $A$ 。
乘法公式把“同时发生”拆成路径上的连续步骤。
独立性表示信息没有改变概率，而不是两件事不能同时发生。
全概率公式把不同来源路径产生同一结果的概率加起来。
贝叶斯思想把问题反过来：看到结果后，比较不同来源路径在所有解释中的占比。

学会这些以后，概率就不再只是静态数字。它更像一种更新判断的方法：先承认原来的不确定性，再认真处理新出现的信息。

条件概率：信息会改变概率

新信息把原来的概率判断更新为新的判断

一条新信息通常不会直接给出结论，它会改变我们看待各种可能性的权重。

一个阳性结果，说明了什么？

很多人会脱口而出“约 $95\%$ ”。这个答案把两件事混在了一起：

$P(\text{阳性}|\text{患病})$ ：已经知道患病，检测阳性的概率。
$P(\text{患病}|\text{阳性})$ ：已经知道阳性，真的患病的概率。

这两个概率方向相反，通常不相等。用 10000 人做自然频数会更清楚：

先按患病率把人群分开。10000 人中约有 100 人患病，9900 人未患病。

对 100 名患病者应用检测敏感度。检测能找出其中约 95 人，所以真阳性约为 95 人。

对 9900 名未患病者应用检测特异度。既然 $90\%$ 会测出阴性，就有 $10\%$ 会误测为阳性，所以假阳性约为 990 人。

检测阳性的人共有 $95+990=1085$ 人，其中真正患病的是 95 人。因此阳性后的患病概率约为 $95/1085$ ，也就是 $8.8\%$ 。

医学检测中的真阳性和假阳性自然频数图

低患病率下，假阳性可能比真阳性多得多；阳性结果仍然重要，但不能脱离基础率解读。

条件概率：换一个观察范围

当 $P(B)>0$ 时，定义是：

P(A|B)=\frac{P(A\cap B)}{P(B)}

这个公式最重要的部分不是分子，而是分母。分母从“全部可能”换成了“已经满足 $B$ 的可能”。分子则是在这个新范围里同时满足 $A$ 的部分。

条件概率把样本空间缩小到条件事件所在的区域

条件概率不是把 $A$ 单独拿出来看，而是在 $B$ 已经发生的新范围里看 $A$ 。

举一个简单例子。随机抽一名学生，设：

$A$ ：这名学生参加校篮球队。
$B$ ：这名学生是高二学生。

乘法公式：沿着路径算概率

条件概率公式可以改写为乘法公式：

P(A\cap B)=P(B)\cdot P(A|B)

也可以写成：

P(A\cap B)=P(A)\cdot P(B|A)

它的意思很朴素：要同时发生两件事，可以先走到第一件事，再从那里走到第二件事。沿着一条路径走，每一步都乘上对应的条件概率。

例如，某地早晨多云的概率是 $30\%$ 。如果早晨多云，下午下雨的概率是 $60\%$ 。那么“早晨多云且下午下雨”的概率是：

P(\text{多云}\cap \text{下雨})=0.30\times 0.60=0.18

也就是 $18\%$ 。

天气条件概率树展示路径乘法

概率树里的每一条完整路径都表示一种联合情况，路径上的概率相乘。

独立性：信息没有改变概率

如果知道 $B$ 发生后， $A$ 的概率没有改变，就说 $A$ 与 $B$ 独立。用公式表示：

P(A|B)=P(A)

在 $P(A)>0$ 且 $P(B)>0$ 的情况下，也可以等价地写成：

P(A\cap B)=P(A)\cdot P(B)

独立性的意思不是“两件事不能同时发生”，而是“知道其中一件事，对另一件事的概率没有帮助”。

独立事件和相关事件的对照示意图

独立性看的是信息是否改变概率，不是看两个事件能不能同时发生。

全概率公式：从不同路径汇合

如果 $B_1,B_2,\ldots,B_n$ 把样本空间分成互不重叠且合起来完整的几部分，那么：

P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+\cdots+P(A|B_n)P(B_n)

也可以写成求和形式：

P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i)

这就是全概率公式。它适合处理“先看来源，再看结果”的问题。

继续天气例子。早晨多云的概率是 $0.30$ ，晴朗的概率是 $0.70$ 。多云后下雨概率是 $0.60$ ，晴朗后下雨概率是 $0.10$ 。那么下午下雨的总概率是：

P(\text{下雨})=0.60\times 0.30+0.10\times 0.70=0.25

所以，在没有进一步信息时，下午下雨概率是 $25\%$ 。

贝叶斯思想：把问题反过来

全概率公式常常和贝叶斯公式一起出现。贝叶斯公式解决的是“看到结果后，反推来源”的问题。

如果 $B_1,B_2,\ldots,B_n$ 是完整且互不重叠的来源，那么看到 $A$ 发生后，来源是 $B_j$ 的概率为：

P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)}

这个公式看起来长，其实就是两句话：

分子： $B_j$ 这条来源路径产生 $A$ 的概率。
分母：所有来源路径产生 $A$ 的总概率。

所以贝叶斯思想不是神秘技巧，而是“某条解释路径占所有可能解释路径的比例”。

P(\text{垃圾}|\text{免费})=\frac{0.60\times 0.20}{0.60\times 0.20+0.05\times 0.80}=0.75

垃圾邮件过滤根据词语线索更新概率判断

每个线索都像一小段证据：它不直接等于结论，但会推高或拉低某个解释的概率。

常见误区：概率换方向会变

条件概率最常见的错误不是算术，而是读题方向。

把 $P(A|B)$ 当成 $P(B|A)$

忽略基础率

如果某个事件本来极少见，即使检测或线索很强，阳性后的概率也可能没有想象中高。基础率就是更新前的起点。没有起点，证据强度很容易被误读。

把“看起来有关”当成独立

把路径概率和条件概率混在一起

检查条件概率题时，可以问自己三句话：现在已知什么？我要在已知范围里数什么？分母是不是已经换成了这个范围？

练习

练习 1：从表格读条件概率

某班 40 名学生中，18 人参加社团，22 人不参加社团；参加社团者中有 12 人喜欢统计课，不参加社团者中有 8 人喜欢统计课。随机选一名学生。

求 $P(\text{喜欢统计课}|\text{参加社团})$ 。

条件已经限定为“参加社团”，所以分母是 18，不是全班 40。参加社团且喜欢统计课的人有 12 人，因此：

P(\text{喜欢统计课}|\text{参加社团})=\frac{12}{18}=\frac{2}{3}

练习 2：判断是否独立

如果独立，应有：

P(A\cap B)=P(A)P(B)

右边为：

0.30\times 0.40=0.12

这正好等于已知的 $P(A\cap B)$ ，所以在这些数据下， $A$ 与 $B$ 独立。

练习 3：条件概率树

某城市早晨堵车的概率是 $0.25$ 。如果早晨堵车，当天迟到的概率是 $0.50$ ；如果早晨不堵车，当天迟到的概率是 $0.08$ 。求当天迟到的总概率。

把“迟到”按早晨是否堵车拆成两条路径：

P(\text{迟到})=P(\text{迟到}|\text{堵车})P(\text{堵车})+P(\text{迟到}|\text{不堵车})P(\text{不堵车})

代入：

P(\text{迟到})=0.50\times 0.25+0.08\times 0.75=0.185

所以当天迟到的总概率是 $18.5\%$ 。

练习 4：反推来源

接着练习 3。如果某天已经知道这名同学迟到了，求早晨堵车的概率。

要算的是 $P(\text{堵车}|\text{迟到})$ 。分子是“堵车且迟到”的路径概率：

P(\text{堵车}\cap \text{迟到})=0.25\times 0.50=0.125

分母是练习 3 中算出的迟到总概率 $0.185$ 。因此：

P(\text{堵车}|\text{迟到})=\frac{0.125}{0.185}\approx 0.676

已经知道迟到后，早晨堵车的概率约为 $67.6\%$ 。

练习 5：医学检测再算一次

某病患病率为 $2\%$ 。检测对患病者测出阳性的概率是 $90\%$ ，对未患病者测出阴性的概率是 $95\%$ 。如果某人检测阳性，估计他患病的概率。

用 10000 人做自然频数。患病者约 200 人，其中真阳性：

200\times 0.90=180

未患病者约 9800 人，假阳性率是 $5\%$ ，所以假阳性：

9800\times 0.05=490

阳性者共有 $180+490=670$ 人，其中真患病者 180 人：

P(\text{患病}|\text{阳性})=\frac{180}{670}\approx 0.269

阳性后的患病概率约为 $26.9\%$ 。

小结

条件概率的直觉可以压缩成一句话：新信息会换掉观察范围。只要范围变了，分母就变了，概率也可能随之改变。

本节需要带走的工具有五个：

条件概率用 $P(A|B)$ 表示，意思是在 $B$ 已经发生的范围里看 $A$ 。
乘法公式把“同时发生”拆成路径上的连续步骤。
独立性表示信息没有改变概率，而不是两件事不能同时发生。
全概率公式把不同来源路径产生同一结果的概率加起来。
贝叶斯思想把问题反过来：看到结果后，比较不同来源路径在所有解释中的占比。

学会这些以后，概率就不再只是静态数字。它更像一种更新判断的方法：先承认原来的不确定性，再认真处理新出现的信息。

条件概率：信息会改变概率

一个阳性结果，说明了什么？

条件概率：换一个观察范围

乘法公式：沿着路径算概率

独立性：信息没有改变概率

全概率公式：从不同路径汇合

贝叶斯思想：把问题反过来

常见误区：概率换方向会变

把 P(A∣B)P(A|B)P(A∣B) 当成 P(B∣A)P(B|A)P(B∣A)

忽略基础率

把“看起来有关”当成独立

把路径概率和条件概率混在一起

练习

练习 1：从表格读条件概率

练习 2：判断是否独立

练习 3：条件概率树

练习 4：反推来源

练习 5：医学检测再算一次

小结

条件概率：信息会改变概率

一个阳性结果，说明了什么？

条件概率：换一个观察范围

乘法公式：沿着路径算概率

独立性：信息没有改变概率

全概率公式：从不同路径汇合

贝叶斯思想：把问题反过来

常见误区：概率换方向会变

把 P(A∣B)P(A|B)P(A∣B) 当成 P(B∣A)P(B|A)P(B∣A)

忽略基础率

把“看起来有关”当成独立

把路径概率和条件概率混在一起

练习

练习 1：从表格读条件概率

练习 2：判断是否独立

练习 3：条件概率树

练习 4：反推来源

练习 5：医学检测再算一次

小结

把 $P(A|B)$ 当成 $P(B|A)$

把 $P(A|B)$ 当成 $P(B|A)$