自在学
分类课程智能体订阅
分类课程AI导师价格
课程进度
8 / 11
上一节计数、排列组合与概率计算下一节随机变量与常见分布
自在学

© 2025 - 2026 自在学,保留所有权利。

公网安备湘公网安备43020302000292号 | 湘ICP备2025148919号-1

关于我们隐私政策使用条款

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号湘ICP备2025148919号-1

数学统计与概率入门条件概率:信息会改变概率

条件概率:信息会改变概率

体检报告显示某项检测为阳性,你会马上判断自己大概率患病吗?天气预报说“今天有雨”,你看到早晨云层很厚后,会不会改变带伞的决定?邮箱收到一封主题里有“免费”和“中奖”的邮件,系统为什么会把它推向垃圾箱?

这些问题的共同点是:我们不是在没有信息时猜测,而是在新信息出现后重新判断概率。条件概率研究的就是这种更新:当某件事已经发生、某条线索已经出现、某个检测结果已经知道时,原来的概率该怎么改。

新信息把原来的概率判断更新为新的判断

一条新信息通常不会直接给出结论,它会改变我们看待各种可能性的权重。

本节的核心问题不是“概率怎么算得更快”,而是“分母到底是谁”。很多条件概率错误都来自同一个地方:题目已经把观察范围换掉了,但计算时还在用原来的总体。


一个阳性结果,说明了什么?

先看一个容易误判的情境。某疾病在人群中的患病率是 1%1\%1%。一种检测对真正患病者有 95%95\%95% 的概率测出阳性,对未患病者有 90%90\%90% 的概率测出阴性。现在一个人检测为阳性,他患病的概率是多少?

很多人会脱口而出“约 95%95\%95%”。这个答案把两件事混在了一起:

  • P(阳性∣患病)P(\text{阳性}|\text{患病})P(阳性∣患病):已经知道患病,检测阳性的概率。
  • P(患病∣阳性)P(\text{患病}|\text{阳性})P(患病∣阳性):已经知道阳性,真的患病的概率。

这两个概率方向相反,通常不相等。用 10000 人做自然频数会更清楚:

先按患病率把人群分开。10000 人中约有 100 人患病,9900 人未患病。

对 100 名患病者应用检测敏感度。检测能找出其中约 95 人,所以真阳性约为 95 人。

对 9900 名未患病者应用检测特异度。既然 90%90\%90% 会测出阴性,就有 10%10\%10% 会误测为阳性,所以假阳性约为 990 人。

检测阳性的人共有 95+990=108595+990=108595+990=1085 人,其中真正患病的是 95 人。因此阳性后的患病概率约为 95/108595/108595/1085,也就是 8.8%8.8\%8.8%。

医学检测中的真阳性和假阳性自然频数图

低患病率下,假阳性可能比真阳性多得多;阳性结果仍然重要,但不能脱离基础率解读。

这个结论不表示检测“没用”。阳性结果把患病概率从 1%1\%1% 提高到了约 8.8%8.8\%8.8%,已经改变了判断。只是它没有把概率直接推到 95%95\%95%。现实医疗判断还会结合症状、复检、风险人群和其他证据,这里只是在说明条件概率的结构。


条件概率:换一个观察范围

如果事件 BBB 已经发生,我们只在 BBB 这个范围里讨论事件 AAA 的概率,就得到条件概率,记作 P(A∣B)P(A|B)P(A∣B),读作“在 BBB 发生的条件下,AAA 发生的概率”。

当 P(B)>0P(B)>0P(B)>0 时,定义是:

P(A∣B)=P(A∩B)P(B)P(A|B)=\frac{P(A\cap B)}{P(B)}P(A∣B)=P(B)P(A∩B)​

这个公式最重要的部分不是分子,而是分母。分母从“全部可能”换成了“已经满足 BBB 的可能”。分子则是在这个新范围里同时满足 AAA 的部分。

条件概率把样本空间缩小到条件事件所在的区域

条件概率不是把 AAA 单独拿出来看,而是在 BBB 已经发生的新范围里看 AAA。

举一个简单例子。随机抽一名学生,设:

  • AAA:这名学生参加校篮球队。
  • BBB:这名学生是高二学生。

P(A)P(A)P(A) 问的是全校随机抽一人参加篮球队的概率;P(A∣B)P(A|B)P(A∣B) 问的是在高二学生中随机抽一人参加篮球队的概率。如果高二有专门的篮球训练班,这两个概率就可能差很多。

看到“已知”“在……中”“如果已经”“检测结果为”“邮件包含”“早晨出现”等字样时,先停一下:题目很可能已经换了观察范围。不要急着套原来的总人数或原来的概率。


乘法公式:沿着路径算概率

条件概率公式可以改写为乘法公式:

P(A∩B)=P(B)⋅P(A∣B)P(A\cap B)=P(B)\cdot P(A|B)P(A∩B)=P(B)⋅P(A∣B)

也可以写成:

P(A∩B)=P(A)⋅P(B∣A)P(A\cap B)=P(A)\cdot P(B|A)P(A∩B)=P(A)⋅P(B∣A)

它的意思很朴素:要同时发生两件事,可以先走到第一件事,再从那里走到第二件事。沿着一条路径走,每一步都乘上对应的条件概率。

例如,某地早晨多云的概率是 30%30\%30%。如果早晨多云,下午下雨的概率是 60%60\%60%。那么“早晨多云且下午下雨”的概率是:

P(多云∩下雨)=0.30×0.60=0.18P(\text{多云}\cap \text{下雨})=0.30\times 0.60=0.18P(多云∩下雨)=0.30×0.60=0.18

也就是 18%18\%18%。

天气条件概率树展示路径乘法

概率树里的每一条完整路径都表示一种联合情况,路径上的概率相乘。

条件概率树特别适合处理“先分组,再看结果”的问题。每个分叉都要问:这一段概率是在什么条件下给出的?如果分叉已经走到了“多云”,下一步的“下雨概率”就是 P(下雨∣多云)P(\text{下雨}|\text{多云})P(下雨∣多云),不是无条件的下雨概率。


独立性:信息没有改变概率

如果知道 BBB 发生后,AAA 的概率没有改变,就说 AAA 与 BBB 独立。用公式表示:

P(A∣B)=P(A)P(A|B)=P(A)P(A∣B)=P(A)

在 P(A)>0P(A)>0P(A)>0 且 P(B)>0P(B)>0P(B)>0 的情况下,也可以等价地写成:

P(A∩B)=P(A)⋅P(B)P(A\cap B)=P(A)\cdot P(B)P(A∩B)=P(A)⋅P(B)

独立性的意思不是“两件事不能同时发生”,而是“知道其中一件事,对另一件事的概率没有帮助”。

抛两枚公平硬币时,第一枚是正面不会改变第二枚是正面的概率,所以两个结果独立。可是从一副牌中不放回抽两张,第一张是否为红桃会改变第二张为红桃的概率,所以两次抽牌结果不独立。

独立事件和相关事件的对照示意图

独立性看的是信息是否改变概率,不是看两个事件能不能同时发生。

“互斥”和“独立”经常被混淆。互斥是两件事不能同时发生;独立是知道一件事后,另一件事的概率不变。两个概率都大于 0 的互斥事件不可能独立,因为一旦知道其中一个发生,另一个的概率立刻变成 0。


全概率公式:从不同路径汇合

很多事件不是从一条路发生的,而是从几条不同来源汇合而来。比如下午下雨可能来自“早晨多云”的路径,也可能来自“早晨晴朗但午后转雨”的路径。总概率就是把这些互不重叠的路径加起来。

如果 B1,B2,…,BnB_1,B_2,\ldots,B_nB1​,B2​,…,Bn​ 把样本空间分成互不重叠且合起来完整的几部分,那么:

P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+⋯+P(A∣Bn)P(Bn)P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+\cdots+P(A|B_n)P(B_n)P(A)=P(A∣B1​)P(B1​)+P(A∣B2​)P(B2​)+⋯+P(A∣Bn​)P(Bn​)

也可以写成求和形式:

P(A)=∑i=1nP(A∣Bi)P(Bi)P(A)=\sum_{i=1}^{n}P(A|B_i)P(B_i)P(A)=i=1∑n​P(A∣Bi​)P(Bi​)

这就是全概率公式。它适合处理“先看来源,再看结果”的问题。

继续天气例子。早晨多云的概率是 0.300.300.30,晴朗的概率是 0.700.700.70。多云后下雨概率是 0.600.600.60,晴朗后下雨概率是 0.100.100.10。那么下午下雨的总概率是:

P(下雨)=0.60×0.30+0.10×0.70=0.25P(\text{下雨})=0.60\times 0.30+0.10\times 0.70=0.25P(下雨)=0.60×0.30+0.10×0.70=0.25

所以,在没有进一步信息时,下午下雨概率是 25%25\%25%。

做全概率题时,可以先画一棵树。树的第一层是“来源”或“类型”,第二层是目标事件是否发生。每条通向目标事件的路径相乘,所有目标路径相加。


贝叶斯思想:把问题反过来

全概率公式常常和贝叶斯公式一起出现。贝叶斯公式解决的是“看到结果后,反推来源”的问题。

如果 B1,B2,…,BnB_1,B_2,\ldots,B_nB1​,B2​,…,Bn​ 是完整且互不重叠的来源,那么看到 AAA 发生后,来源是 BjB_jBj​ 的概率为:

P(Bj∣A)=P(A∣Bj)P(Bj)∑i=1nP(A∣Bi)P(Bi)P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum_{i=1}^{n}P(A|B_i)P(B_i)}P(Bj​∣A)=∑i=1n​P(A∣Bi​)P(Bi​)P(A∣Bj​)P(Bj​)​

这个公式看起来长,其实就是两句话:

  • 分子:BjB_jBj​ 这条来源路径产生 AAA 的概率。
  • 分母:所有来源路径产生 AAA 的总概率。

所以贝叶斯思想不是神秘技巧,而是“某条解释路径占所有可能解释路径的比例”。

用垃圾邮件过滤来看。假设邮箱里垃圾邮件比例是 20%20\%20%。垃圾邮件含有“免费”这个词的概率是 60%60\%60%,正常邮件含有“免费”的概率是 5%5\%5%。一封新邮件出现“免费”,它是垃圾邮件的概率约为:

P(垃圾∣免费)=0.60×0.200.60×0.20+0.05×0.80=0.75P(\text{垃圾}|\text{免费})=\frac{0.60\times 0.20}{0.60\times 0.20+0.05\times 0.80}=0.75P(垃圾∣免费)=0.60×0.20+0.05×0.800.60×0.20​=0.75

一个词把概率从 20%20\%20% 提高到了 75%75\%75%。如果邮件里又出现“中奖”“限时”等词,系统会继续更新判断;如果出现“会议纪要”“课程安排”等词,判断可能又下降。实际垃圾邮件系统会处理更多线索,并会注意线索之间不一定独立。

垃圾邮件过滤根据词语线索更新概率判断

每个线索都像一小段证据:它不直接等于结论,但会推高或拉低某个解释的概率。


常见误区:概率换方向会变

条件概率最常见的错误不是算术,而是读题方向。

把 P(A∣B)P(A|B)P(A∣B) 当成 P(B∣A)P(B|A)P(B∣A)

“患病者检测阳性的概率很高”不等于“检测阳性者患病的概率很高”。前者从患病者中看检测结果,后者从阳性者中看真实状态。观察范围不同,分母不同。

忽略基础率

如果某个事件本来极少见,即使检测或线索很强,阳性后的概率也可能没有想象中高。基础率就是更新前的起点。没有起点,证据强度很容易被误读。

把“看起来有关”当成独立

独立性不能靠直觉喊出来,要看概率是否改变。雨天和带伞显然有关;抽卡不放回前后也有关。即使两个事件没有明显因果,也可能因为共同背景而相关。

把路径概率和条件概率混在一起

在概率树上,某一段分支上的 60%60\%60% 可能是“多云条件下下雨”的概率;整条路径的 18%18\%18% 才是“多云且下雨”的概率。读树时要分清“一段”和“一条完整路径”。

检查条件概率题时,可以问自己三句话:现在已知什么?我要在已知范围里数什么?分母是不是已经换成了这个范围?


练习

练习 1:从表格读条件概率

某班 40 名学生中,18 人参加社团,22 人不参加社团;参加社团者中有 12 人喜欢统计课,不参加社团者中有 8 人喜欢统计课。随机选一名学生。

求 P(喜欢统计课∣参加社团)P(\text{喜欢统计课}|\text{参加社团})P(喜欢统计课∣参加社团)。

条件已经限定为“参加社团”,所以分母是 18,不是全班 40。参加社团且喜欢统计课的人有 12 人,因此:

P(喜欢统计课∣参加社团)=1218=23P(\text{喜欢统计课}|\text{参加社团})=\frac{12}{18}=\frac{2}{3}P(喜欢统计课∣参加社团)=1812​=32​

练习 2:判断是否独立

某活动中,随机抽一人。设 AAA 为“此人报名摄影”,BBB 为“此人报名写作”。已知 P(A)=0.30P(A)=0.30P(A)=0.30,P(B)=0.40P(B)=0.40P(B)=0.40,P(A∩B)=0.12P(A\cap B)=0.12P(A∩B)=0.12。判断 AAA 与 BBB 是否独立。

如果独立,应有:

P(A∩B)=P(A)P(B)P(A\cap B)=P(A)P(B)P(A∩B)=P(A)P(B)

右边为:

0.30×0.40=0.120.30\times 0.40=0.120.30×0.40=0.12

这正好等于已知的 P(A∩B)P(A\cap B)P(A∩B),所以在这些数据下,AAA 与 BBB 独立。

练习 3:条件概率树

某城市早晨堵车的概率是 0.250.250.25。如果早晨堵车,当天迟到的概率是 0.500.500.50;如果早晨不堵车,当天迟到的概率是 0.080.080.08。求当天迟到的总概率。

把“迟到”按早晨是否堵车拆成两条路径:

P(迟到)=P(迟到∣堵车)P(堵车)+P(迟到∣不堵车)P(不堵车)P(\text{迟到})=P(\text{迟到}|\text{堵车})P(\text{堵车})+P(\text{迟到}|\text{不堵车})P(\text{不堵车})P(迟到)=P(迟到∣堵车)P(堵车)+P(迟到∣不堵车)P(不堵车)

代入:

P(迟到)=0.50×0.25+0.08×0.75=0.185P(\text{迟到})=0.50\times 0.25+0.08\times 0.75=0.185P(迟到)=0.50×0.25+0.08×0.75=0.185

所以当天迟到的总概率是 18.5%18.5\%18.5%。

练习 4:反推来源

接着练习 3。如果某天已经知道这名同学迟到了,求早晨堵车的概率。

要算的是 P(堵车∣迟到)P(\text{堵车}|\text{迟到})P(堵车∣迟到)。分子是“堵车且迟到”的路径概率:

P(堵车∩迟到)=0.25×0.50=0.125P(\text{堵车}\cap \text{迟到})=0.25\times 0.50=0.125P(堵车∩迟到)=0.25×0.50=0.125

分母是练习 3 中算出的迟到总概率 0.1850.1850.185。因此:

P(堵车∣迟到)=0.1250.185≈0.676P(\text{堵车}|\text{迟到})=\frac{0.125}{0.185}\approx 0.676P(堵车∣迟到)=0.1850.125​≈0.676

已经知道迟到后,早晨堵车的概率约为 67.6%67.6\%67.6%。

练习 5:医学检测再算一次

某病患病率为 2%2\%2%。检测对患病者测出阳性的概率是 90%90\%90%,对未患病者测出阴性的概率是 95%95\%95%。如果某人检测阳性,估计他患病的概率。

用 10000 人做自然频数。患病者约 200 人,其中真阳性:

200×0.90=180200\times 0.90=180200×0.90=180

未患病者约 9800 人,假阳性率是 5%5\%5%,所以假阳性:

9800×0.05=4909800\times 0.05=4909800×0.05=490

阳性者共有 180+490=670180+490=670180+490=670 人,其中真患病者 180 人:

P(患病∣阳性)=180670≈0.269P(\text{患病}|\text{阳性})=\frac{180}{670}\approx 0.269P(患病∣阳性)=670180​≈0.269

阳性后的患病概率约为 26.9%26.9\%26.9%。


小结

条件概率的直觉可以压缩成一句话:新信息会换掉观察范围。只要范围变了,分母就变了,概率也可能随之改变。

本节需要带走的工具有五个:

  • 条件概率用 P(A∣B)P(A|B)P(A∣B) 表示,意思是在 BBB 已经发生的范围里看 AAA。
  • 乘法公式把“同时发生”拆成路径上的连续步骤。
  • 独立性表示信息没有改变概率,而不是两件事不能同时发生。
  • 全概率公式把不同来源路径产生同一结果的概率加起来。
  • 贝叶斯思想把问题反过来:看到结果后,比较不同来源路径在所有解释中的占比。

学会这些以后,概率就不再只是静态数字。它更像一种更新判断的方法:先承认原来的不确定性,再认真处理新出现的信息。

  • 一个阳性结果,说明了什么?
  • 条件概率:换一个观察范围
  • 乘法公式:沿着路径算概率
  • 独立性:信息没有改变概率
  • 全概率公式:从不同路径汇合
  • 贝叶斯思想:把问题反过来
  • 常见误区:概率换方向会变
    • 把 $P(A|B)$ 当成 $P(B|A)$
    • 忽略基础率
    • 把“看起来有关”当成独立
    • 把路径概率和条件概率混在一起
  • 练习
    • 练习 1:从表格读条件概率
    • 练习 2:判断是否独立
    • 练习 3:条件概率树
    • 练习 4:反推来源
    • 练习 5:医学检测再算一次
  • 小结

目录

  • 一个阳性结果,说明了什么?
  • 条件概率:换一个观察范围
  • 乘法公式:沿着路径算概率
  • 独立性:信息没有改变概率
  • 全概率公式:从不同路径汇合
  • 贝叶斯思想:把问题反过来
  • 常见误区:概率换方向会变
    • 把 $P(A|B)$ 当成 $P(B|A)$
    • 忽略基础率
    • 把“看起来有关”当成独立
    • 把路径概率和条件概率混在一起
  • 练习
    • 练习 1:从表格读条件概率
    • 练习 2:判断是否独立
    • 练习 3:条件概率树
    • 练习 4:反推来源
    • 练习 5:医学检测再算一次
  • 小结