
近年来,中国疾病防控中心发布了一项关于全国各县市糖尿病发病率的调查报告。数据显示一个令人困惑的现象:糖尿病发病率最低的县市主要集中在人口稀少的西部山区和边远地区,这些地方经济发展相对滞后,医疗资源也比较匮乏。面对这样的结果,你会如何解释?
你的大脑在刚才几秒钟内非常活跃,这主要是理性思维的运作。你有意识地搜索记忆并形成假设。这个过程需要一定努力,你的瞳孔可能放大,心率也会有所增加。但直觉思维也没有闲着:理性思维的运作依赖于从联想记忆中检索到的事实和建议。你很可能拒绝了“经济落后地区的人们生活方式更健康”这种解释,最终可能聚焦于这样一个事实:糖尿病发病率低的县市大多是人口稀少的偏远地区。这似乎很有道理——偏远地区空气清新,食物天然无添加,生活节奏慢,压力小。
但是,让我们再看看糖尿病发病率最高的县市分布情况。令人惊讶的是,这些高发病率的县市同样主要分布在人口稀少的西部山区和边远地区。如果按照刚才的逻辑,我们又可以轻易地解释:偏远地区医疗条件差,营养结构单一,缺乏健康知识普及。
显然,某些地方的生活方式不可能既导致非常低的糖尿病发病率,又导致非常高的发病率。这里的关键因素不是县市的地理位置或经济状况,而是这些县市的人口规模都很小。这个例子要教给我们的主要课程不是关于流行病学的,而是关于我们的心智与统计学之间复杂关系的深刻洞察。
为了理解这种现象,我们需要掌握一个基本的统计学概念。想象一个装满彩球的大箱子,一半是红球,一半是蓝球。现在假设有个非常耐心的人(或机器人)盲目地从箱子里抽取4个球,记录样本中红球的数量,然后把球放回箱子,重复这个过程很多次。如果你统计结果,会发现“2红2蓝”的结果出现的频率(几乎完全)是“4红”或“4蓝”结果的6倍。这种关系是数学事实,你可以像预测用锤子敲击鸡蛋会发生什么一样确信地预测重复抽样的结果。
与此相关的另一个统计学事实与我们的疾病例子直接相关。假设有两个人从同一个箱子里抽球:小张每次抽取4个球,小李每次抽取7个球。他们都记录观察到同质样本(全蓝或全红)的次数。如果他们坚持足够长时间,小张观察到这种极端结果的频率会比小李高8倍(预期百分比分别是12.5%和1.56%)。这又是一个数学事实:4球样本产生极端结果的频率比7球样本更高。
现在把中国人口想象成巨大箱子里的彩球。一些球标记为“D”,代表糖尿病患者。你抽取样本来构成各个县市的人口。偏远县市的样本比其他样本要小。就像刚才小张和小李的游戏一样,极端结果(非常高和/或非常低的疾病率)最可能在人口稀少的县市中发现。这就是整个现象的全部解释。
我们从一个呼唤因果解释的事实开始:各县市间糖尿病发病率差异巨大,而且这些差异是系统性的。我提供的解释是统计性的:极端结果(无论高低)更可能在小样本而非大样本中发现。这种解释不是因果性的。县市的小人口规模既不会引起也不会预防糖尿病;它只是使得疾病发病率可能比大人口中的发病率高得多(或低得多)。
更深层的真相是,这里没有什么需要解释的。人口稀少县市的疾病发病率实际上既不比正常水平真正更低,也不真正更高,它只是因为抽样的偶然性在特定年份看起来如此。如果明年重复分析,我们会观察到小样本中同样的极端结果总体模式,但去年疾病高发的县市今年未必会有高发病率。如果情况确实如此,人口密集地区和偏远地区之间的差异实际上算不上真正的事实:它们只是科学家所说的人工产物,完全由研究方法的某个方面——在这个案例中是样本大小的差异——产生的观察结果。
这个故事可能让你感到惊讶,但对于熟悉统计学的人来说并不意外。你早就知道大样本的结果比小样本更可信,即使没有统计学知识的人也听说过大数定律。但是“知道”不是非黑即白的事情,你可能会发现以下陈述适用于你:

当你读到疾病流行病学故事时,“人口稀少”这个特征并没有立即显得相关。你至少对4球样本和7球样本之间的巨大差异感到了轻微惊讶。即使是现在,你也必须花费一些心理努力才能看出以下两个陈述的意思完全相同:大样本比小样本更精确;小样本比大样本更频繁地产生极端结果。
第一个陈述听起来显然正确,但直到第二个版本在直觉上说得通之前,你还没有真正理解第一个。简而言之,是的,你确实知道大样本的结果更精确,但你现在可能意识到你并没有很好地掌握这一点。你并不孤单。
在1970年代初,我和阿莫斯的合作始于对一个说法的讨论:没有受过统计学训练的人是优秀的“直觉统计学家”。我对这个说法有强烈的感觉,并把它当作对个人的评判:我最近发现自己不是一个好的直觉统计学家,而且我不相信自己比别人差。
这种错误风险可以通过相当简单的程序为任何给定的样本大小进行估算。然而,传统上心理学家不使用计算来决定样本大小,他们使用判断,而这种判断通常是有缺陷的。我在与阿莫斯辩论之前读到的一篇文章通过一个戏剧性的观察展示了研究者犯的错误(他们现在仍然如此)。作者指出,心理学家通常选择的样本太小,以至于他们让自己面临50%的风险,无法证实他们真实的假设!没有理智的研究者会接受这样的风险。
这篇内容震撼了我,因为它解释了我在自己的研究中遇到的一些困扰。像大多数研究心理学家一样,我经常选择太小的样本,经常得到毫无意义的结果。现在我知道为什么了:奇怪的结果实际上是我研究方法的人工产物。我和阿莫斯开始研究我是唯一的傻瓜还是大多数傻瓜中的一员,通过测试那些因数学专长而被挑选的研究者是否会犯类似错误。
我们开发了一份问卷,描述了现实的研究情况,包括成功实验的重复。问卷要求研究者选择样本大小,评估他们的决定所带来的失败风险,并为计划研究的假想研究生提供建议。阿莫斯收集了一群有经验参与者(包括两本统计学教科书的作者)的回答。
“在一项针对500名老年人的电话民调中,65%的人支持延迟退休政策。”
如果你必须用三个词总结这句话的信息,你会选择什么?几乎可以肯定你会选择“老年人支持延迟退休”。这些词提供了故事的要点。民调的被忽略细节——电话调查,500人样本——本身并不有趣;它们提供的背景信息几乎不会吸引注意。即使样本大小不同,你的总结也会是一样的。当然,一个完全荒谬的数字会引起你的注意(“一项针对8名[或8千万名]老年选民的电话民调...”)。然而,除非你是专业人士,否则你对150人样本和3000人样本的反应可能没有太大区别。这就是“人们对样本大小不够敏感”这一说法的含义。
关于民调的信息包含两种类型的信息:故事和故事的来源。自然地,你关注故事而不是结果的可靠性。然而,当可靠性明显很低时,信息就会失去信誉。如果你被告知“某个带有偏见的组织进行了一项有缺陷的民调,以显示老年人支持延迟退休...”,你当然会拒绝民调的发现,它们不会成为你信念的一部分。相反,这个带偏见的民调及其虚假结果会成为关于政治谎言的新故事。
理性思维有能力怀疑,因为它可以同时保持不相容的可能性。然而,维持怀疑比滑入确定性需要更多努力。小数法则是一般偏见的表现,这种偏见偏向确定性而不是怀疑,这将在后续章节中以多种形式出现。
对小样本密切反映其来源总体的强烈偏见也是一个更大故事的一部分:我们倾向于夸大我们所见的一致性和连贯性。研究者对从少数观察中可以学到什么的过度信心与光环效应密切相关,即我们经常得到的感觉——我们了解和理解一个实际上我们知之甚少的人。直觉思维基于零散证据构建丰富形象时总是抢在事实前面。一台跳跃到结论的机器会表现得好像它相信小数法则。更一般地说,它会产生一个过于合理的现实表征。

联想机制总在寻找原因。我们在处理统计规律性时遇到的困难在于它们需要不同的方法。统计观点不是关注手头事件如何发生,而是将其与可能发生的其他情况联系起来。没有特定的原因导致它成为现在这样——机会从其替代选项中选择了它。
我们对因果思维的偏好使我们在评估真正随机事件的随机性时容易犯严重错误。例如,考虑某医院连续出生的六个婴儿的性别。男孩和女孩的顺序显然是随机的;事件相互独立,过去几小时在医院出生的男孩和女孩数量对下一个婴儿的性别没有任何影响。现在考虑三个可能的序列:
男男男女女女 女女女女女女 男女男男女男
这些序列出现的可能性相等吗?直觉答案——“当然不是!”——是错误的。因为事件独立,并且因为结果M和F(大约)等可能,那么任何可能的六次出生序列都与任何其他序列同样可能。即使现在你知道这个结论是真实的,它仍然反直觉,因为只有第三个序列看起来随机。
我们是模式寻求者,是连贯世界的信徒,在这个世界中规律性(如六个女孩的序列)不是偶然出现的,而是机械因果关系或某人意图的结果。我们不期望看到随机过程产生的规律性,当我们检测到似乎是规律的东西时,我们很快拒绝过程真正随机的想法。
随机过程产生许多序列,让人们相信过程毕竟不是随机的。你可以看到为什么假设因果关系可能具有进化优势。这是我们从祖先那里继承的一般警觉性的一部分。我们自动寻找环境可能已经改变的可能性。狮子可能在随机时间出现在平原上,但注意并响应狮群出现率的明显增加会更安全,即使它实际上是由于随机过程的波动。
对随机性的普遍误解有时会产生重大后果。在第二次世界大战期间伦敦的密集火箭轰炸中,人们普遍认为轰炸不可能是随机的,因为打击地图显示了明显的空白区域。一些人怀疑德国间谍位于未受伤害的地区。仔细的统计分析显示,打击分布是典型的随机过程,同时也典型地唤起了它不是随机的强烈印象。“对未经训练的眼睛,”统计学家费勒评论道,“随机性看起来像规律性或聚集趋势。”
在现代中国,我们同样可以看到这种现象。2020年新冠疫情期间,一些社交媒体用户试图从确诊病例的地理分布中寻找规律,认为某些区域的病例聚集不可能是随机的,而必定有特殊原因。实际上,在随机分布中,聚集现象是完全正常的统计现象。
几年后,阿莫斯和他的学生们在篮球研究中引起了轰动,揭示了对随机性认知的误区。球员偶尔获得“热手”的“事实”被球员、教练和球迷普遍接受。这种推断是不可抗拒的:一个球员连续投中三四个篮,你不禁形成因果判断,认为这个球员现在处于火热状态,临时增加了得分倾向。两队的球员都适应这种判断——队友更可能传球给热手得分者,防守更可能采用包夹战术。

对数千个投篮序列的分析得出了令人失望的结论:在职业篮球中不存在热手现象,无论是在场上投篮还是在罚球线上得分。当然,一些球员比其他球员更准确,但成功和失误投篮的序列满足所有随机性测试。热手完全在旁观者眼中,他们总是过于急切地在随机性中感知秩序和因果关系。热手是一个大规模和广泛的认知错觉。
公众对这项研究的反应是故事的一部分。由于其惊人结论,这一发现被媒体报道,总体反应是不相信。当著名的波士顿凯尔特人队教练听说这项研究时,他回应道:“这家伙是谁?他做了个研究。我一点都不在乎。”在随机性中看到模式的倾向是压倒性的——当然比做研究的人更令人印象深刻。
模式错觉在篮球场外以多种方式影响我们的生活。你应该等多少个好年头才能断定一位投资顾问异常熟练?董事会需要多少次成功收购才能相信CEO对此类交易有非凡天赋?如果你跟随直觉,这些问题的简单答案是,你往往会错误地将随机事件归类为系统性的。我们太愿意拒绝相信我们在生活中看到的很多东西是随机的。
让我们回到本内容开始的疾病例子。这个例子出现在为统计学教师编写的书中,但我从两位统计学家的一篇有趣文章中了解到它。他们的文章重点关注一项大型投资,某基金会投入约100亿人民币,跟进关于最成功学校特征的有趣发现。
许多研究者通过识别最成功的学校来寻找成功教育的秘密,希望发现它们与其他学校的区别。这项研究的结论之一是最成功的学校平均而言规模较小。在对全国3000所学校的调查中,例如,前100名中有30所是小学校,这是4倍的过度代表。这些数据鼓励该基金会在创建小学校方面进行大量投资,有时通过将大学校分割成较小单位。至少6个其他著名机构加入了这一努力,教育部的小规模学习社区项目也参与其中。
这对你来说可能在直觉上说得通。很容易构建一个因果故事来解释小学校如何能够提供优质教育,从而通过给学生比大学校更多的个人关注和鼓励来培养高成就的学者。不幸的是,因果分析是无意义的,因为事实是错误的。如果向基金会报告的统计学家询问最差学校的特征,他们会发现差学校也趋向于比平均水平小。事实是小学校平均并不更好;它们只是变异性更大。
由于认知心理学的最新进展,我们现在可以清楚地看到阿莫斯和我只能隐约察觉的东西:小数法则是关于心智运作的两个更大故事的一部分。
对小样本的过度信心只是一个更一般错觉的一个例子:我们更多地关注信息的内容而不是关于其可靠性的信息,结果最终得到的世界观比数据所证实的更简单、更连贯。在我们想象世界中跳跃到结论是比在现实中更安全的运动。
统计产生许多看起来需要因果解释但实际上不适合这种解释的观察。世界的许多事实都是偶然的,包括抽样意外。对偶然事件的因果解释必然是错误的。
在现代社会中,小数法则的陷阱无处不在。从医疗诊断到商业决策,从教育政策到投资选择,我们都需要警惕这种认知偏差的影响。
在医疗领域,一个小诊所可能因为偶然原因在某个月出现异常高的某种疾病发病率,但这并不意味着该地区存在特殊的致病因素。
在商业环境中,一个小团队的短期优异表现可能只是统计波动,而不是管理方法的优越性。
在教育评估中,小规模学校的极端表现(无论好坏)更可能反映样本大小的影响,而非教育质量的真实差异。
认识到这些模式,我们可以更加理性地解读数据,避免被表面现象误导,做出更加明智的判断和决策。这不仅有助于个人避免认知陷阱,也为构建更加科学的决策体系提供了重要基础。