条件概率:信息会改变概率
体检报告显示某项检测为阳性,你会马上判断自己大概率患病吗?天气预报说“今天有雨”,你看到早晨云层很厚后,会不会改变带伞的决定?邮箱收到一封主题里有“免费”和“中奖”的邮件,系统为什么会把它推向垃圾箱?
这些问题的共同点是:我们不是在没有信息时猜测,而是在新信息出现后重新判断概率。条件概率研究的就是这种更新:当某件事已经发生、某条线索已经出现、某个检测结果已经知道时,原来的概率该怎么改。

一条新信息通常不会直接给出结论,它会改变我们看待各种可能性的权重。
本节的核心问题不是“概率怎么算得更快”,而是“分母到底是谁”。很多条件概率错误都来自同一个地方:题目已经把观察范围换掉了,但计算时还在用原来的总体。
一个阳性结果,说明了什么?
先看一个容易误判的情境。某疾病在人群中的患病率是 1%。一种检测对真正患病者有 95% 的概率测出阳性,对未患病者有 90% 的概率测出阴性。现在一个人检测为阳性,他患病的概率是多少?
很多人会脱口而出“约 95%”。这个答案把两件事混在了一起:
- P(阳性∣患病):已经知道患病,检测阳性的概率。
- P(患病∣阳性):已经知道阳性,真的患病的概率。
这两个概率方向相反,通常不相等。用 10000 人做自然频数会更清楚:
先按患病率把人群分开。10000 人中约有 100 人患病,9900 人未患病。
对 100 名患病者应用检测敏感度。检测能找出其中约 95 人,所以真阳性约为 95 人。
对 9900 名未患病者应用检测特异度。既然 90% 会测出阴性,就有 10% 会误测为阳性,所以假阳性约为 990 人。
检测阳性的人共有 95+990=1085 人,其中真正患病的是 95 人。因此阳性后的患病概率约为 95/1085,也就是 8.8%。

低患病率下,假阳性可能比真阳性多得多;阳性结果仍然重要,但不能脱离基础率解读。
这个结论不表示检测“没用”。阳性结果把患病概率从 1% 提高到了约 8.8%,已经改变了判断。只是它没有把概率直接推到 95%。现实医疗判断还会结合症状、复检、风险人群和其他证据,这里只是在说明条件概率的结构。
条件概率:换一个观察范围
如果事件 B 已经发生,我们只在 B 这个范围里讨论事件 A 的概率,就得到条件概率,记作 P(A∣B),读作“在 B 发生的条件下,A 发生的概率”。
当 P(B)>0 时,定义是:
P(A∣B)=P(B)P(A∩B)
这个公式最重要的部分不是分子,而是分母。分母从“全部可能”换成了“已经满足 B 的可能”。分子则是在这个新范围里同时满足 A 的部分。

条件概率不是把 A 单独拿出来看,而是在 B 已经发生的新范围里看 A。
举一个简单例子。随机抽一名学生,设:
- A:这名学生参加校篮球队。
- B:这名学生是高二学生。
P(A) 问的是全校随机抽一人参加篮球队的概率;P(A∣B) 问的是在高二学生中随机抽一人参加篮球队的概率。如果高二有专门的篮球训练班,这两个概率就可能差很多。
看到“已知”“在……中”“如果已经”“检测结果为”“邮件包含”“早晨出现”等字样时,先停一下:题目很可能已经换了观察范围。不要急着套原来的总人数或原来的概率。
乘法公式:沿着路径算概率
条件概率公式可以改写为乘法公式:
P(A∩B)=P(B)⋅P(A∣B)
也可以写成:
P(A∩B)=P(A)⋅P(B∣A)
它的意思很朴素:要同时发生两件事,可以先走到第一件事,再从那里走到第二件事。沿着一条路径走,每一步都乘上对应的条件概率。
例如,某地早晨多云的概率是 30%。如果早晨多云,下午下雨的概率是 60%。那么“早晨多云且下午下雨”的概率是:
P(多云∩下雨)=0.30×0.60=0.18
也就是 18%。

概率树里的每一条完整路径都表示一种联合情况,路径上的概率相乘。
条件概率树特别适合处理“先分组,再看结果”的问题。每个分叉都要问:这一段概率是在什么条件下给出的?如果分叉已经走到了“多云”,下一步的“下雨概率”就是 P(下雨∣多云),不是无条件的下雨概率。
独立性:信息没有改变概率
如果知道 B 发生后,A 的概率没有改变,就说 A 与 B 独立。用公式表示:
P(A∣B)=P(A)
在 P(A)>0 且 P(B)>0 的情况下,也可以等价地写成:
P(A∩B)=P(A)⋅P(B)
独立性的意思不是“两件事不能同时发生”,而是“知道其中一件事,对另一件事的概率没有帮助”。
抛两枚公平硬币时,第一枚是正面不会改变第二枚是正面的概率,所以两个结果独立。可是从一副牌中不放回抽两张,第一张是否为红桃会改变第二张为红桃的概率,所以两次抽牌结果不独立。

独立性看的是信息是否改变概率,不是看两个事件能不能同时发生。
“互斥”和“独立”经常被混淆。互斥是两件事不能同时发生;独立是知道一件事后,另一件事的概率不变。两个概率都大于 0 的互斥事件不可能独立,因为一旦知道其中一个发生,另一个的概率立刻变成 0。
全概率公式:从不同路径汇合
很多事件不是从一条路发生的,而是从几条不同来源汇合而来。比如下午下雨可能来自“早晨多云”的路径,也可能来自“早晨晴朗但午后转雨”的路径。总概率就是把这些互不重叠的路径加起来。
如果 B1,B2,…,Bn 把样本空间分成互不重叠且合起来完整的几部分,那么:
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+⋯+P(A∣Bn)P(Bn)
也可以写成求和形式:
P(A)=i=1∑nP(A∣Bi)P(Bi)
这就是全概率公式。它适合处理“先看来源,再看结果”的问题。
继续天气例子。早晨多云的概率是 0.30,晴朗的概率是 0.70。多云后下雨概率是 0.60,晴朗后下雨概率是 0.10。那么下午下雨的总概率是:
P(下雨)=0.60×0.30+0.10×0.70=0.25
所以,在没有进一步信息时,下午下雨概率是 25%。
做全概率题时,可以先画一棵树。树的第一层是“来源”或“类型”,第二层是目标事件是否发生。每条通向目标事件的路径相乘,所有目标路径相加。
贝叶斯思想:把问题反过来
全概率公式常常和贝叶斯公式一起出现。贝叶斯公式解决的是“看到结果后,反推来源”的问题。
如果 B1,B2,…,Bn 是完整且互不重叠的来源,那么看到 A 发生后,来源是 Bj 的概率为:
P(Bj∣A)=∑i=1nP(A∣Bi)P(Bi)P(A∣Bj)P(Bj)
这个公式看起来长,其实就是两句话:
- 分子:Bj 这条来源路径产生 A 的概率。
- 分母:所有来源路径产生 A 的总概率。
所以贝叶斯思想不是神秘技巧,而是“某条解释路径占所有可能解释路径的比例”。
用垃圾邮件过滤来看。假设邮箱里垃圾邮件比例是 20%。垃圾邮件含有“免费”这个词的概率是 60%,正常邮件含有“免费”的概率是 5%。一封新邮件出现“免费”,它是垃圾邮件的概率约为:
P(垃圾∣免费)=0.60×0.20+0.05×0.800.60×0.20=0.75
一个词把概率从 20% 提高到了 75%。如果邮件里又出现“中奖”“限时”等词,系统会继续更新判断;如果出现“会议纪要”“课程安排”等词,判断可能又下降。实际垃圾邮件系统会处理更多线索,并会注意线索之间不一定独立。

每个线索都像一小段证据:它不直接等于结论,但会推高或拉低某个解释的概率。
常见误区:概率换方向会变
条件概率最常见的错误不是算术,而是读题方向。
把 P(A∣B) 当成 P(B∣A)
“患病者检测阳性的概率很高”不等于“检测阳性者患病的概率很高”。前者从患病者中看检测结果,后者从阳性者中看真实状态。观察范围不同,分母不同。
忽略基础率
如果某个事件本来极少见,即使检测或线索很强,阳性后的概率也可能没有想象中高。基础率就是更新前的起点。没有起点,证据强度很容易被误读。
把“看起来有关”当成独立
独立性不能靠直觉喊出来,要看概率是否改变。雨天和带伞显然有关;抽卡不放回前后也有关。即使两个事件没有明显因果,也可能因为共同背景而相关。
把路径概率和条件概率混在一起
在概率树上,某一段分支上的 60% 可能是“多云条件下下雨”的概率;整条路径的 18% 才是“多云且下雨”的概率。读树时要分清“一段”和“一条完整路径”。
检查条件概率题时,可以问自己三句话:现在已知什么?我要在已知范围里数什么?分母是不是已经换成了这个范围?
练习
练习 1:从表格读条件概率
某班 40 名学生中,18 人参加社团,22 人不参加社团;参加社团者中有 12 人喜欢统计课,不参加社团者中有 8 人喜欢统计课。随机选一名学生。
求 P(喜欢统计课∣参加社团)。
条件已经限定为“参加社团”,所以分母是 18,不是全班 40。参加社团且喜欢统计课的人有 12 人,因此:
P(喜欢统计课∣参加社团)=1812=32
练习 2:判断是否独立
某活动中,随机抽一人。设 A 为“此人报名摄影”,B 为“此人报名写作”。已知 P(A)=0.30,P(B)=0.40,P(A∩B)=0.12。判断 A 与 B 是否独立。
如果独立,应有:
P(A∩B)=P(A)P(B)右边为:
0.30×0.40=0.12这正好等于已知的 P(A∩B),所以在这些数据下,A 与 B 独立。
练习 3:条件概率树
某城市早晨堵车的概率是 0.25。如果早晨堵车,当天迟到的概率是 0.50;如果早晨不堵车,当天迟到的概率是 0.08。求当天迟到的总概率。
把“迟到”按早晨是否堵车拆成两条路径:
P(迟到)=P(迟到∣堵车)P(堵车)+P(迟到∣不堵车)P(不堵车)代入:
P(迟到)=0.50×0.25+0.08×0.75=0.185所以当天迟到的总概率是 18.5%。
练习 4:反推来源
接着练习 3。如果某天已经知道这名同学迟到了,求早晨堵车的概率。
要算的是 P(堵车∣迟到)。分子是“堵车且迟到”的路径概率:
P(堵车∩迟到)=0.25×0.50=0.125分母是练习 3 中算出的迟到总概率 0.185。因此:
P(堵车∣迟到)=0.1850.125≈0.676已经知道迟到后,早晨堵车的概率约为 67.6%。
练习 5:医学检测再算一次
某病患病率为 2%。检测对患病者测出阳性的概率是 90%,对未患病者测出阴性的概率是 95%。如果某人检测阳性,估计他患病的概率。
用 10000 人做自然频数。患病者约 200 人,其中真阳性:
200×0.90=180未患病者约 9800 人,假阳性率是 5%,所以假阳性:
9800×0.05=490阳性者共有 180+490=670 人,其中真患病者 180 人:
P(患病∣阳性)=670180≈0.269阳性后的患病概率约为 26.9%。
小结
条件概率的直觉可以压缩成一句话:新信息会换掉观察范围。只要范围变了,分母就变了,概率也可能随之改变。
本节需要带走的工具有五个:
- 条件概率用 P(A∣B) 表示,意思是在 B 已经发生的范围里看 A。
- 乘法公式把“同时发生”拆成路径上的连续步骤。
- 独立性表示信息没有改变概率,而不是两件事不能同时发生。
- 全概率公式把不同来源路径产生同一结果的概率加起来。
- 贝叶斯思想把问题反过来:看到结果后,比较不同来源路径在所有解释中的占比。
学会这些以后,概率就不再只是静态数字。它更像一种更新判断的方法:先承认原来的不确定性,再认真处理新出现的信息。