
在管理学和心理学的研究中,有一个极其重要却常被误解的统计现象——回归均值。这个概念不仅揭示了偶然性在人类表现中的重要作用,更帮助我们理解为什么某些看似有效的管理方法实际上可能是统计幻觉。通过深入理解回归均值,我们能够更好地评估绩效变化、制定合理预期,并避免因果关系的错误归因。
几年前,我在为某驾校的教练员进行心理学培训时,经历了职业生涯中最令人兴奋的顿悟时刻。当时我正在向他们介绍有效教学的一个重要原则:对改进表现的奖励比对错误的惩罚更有效。这个观点得到了大量关于人类和动物学习行为研究的支持。
当我满怀热情地结束演讲后,一位经验最丰富的教练举手发言。他首先承认,奖励改进表现对其他情况可能有效,但他坚决否认这种方法对学员最为适用。他的话让我印象深刻:
这是一个令人兴奋的顿悟时刻,让我以全新的角度理解了多年来一直在教授的统计学原理。这位教练的观察是敏锐而正确的:他表扬学员表现的场合确实往往伴随着下次表现的下降,而惩罚通常确实会带来改进。但是,他对奖励和惩罚效果的推论却完全错误。
教练观察到的现象被称为回归均值,在这个案例中是由表现质量的随机波动造成的。很自然地,他只会对表现远超平均水平的学员给予表扬。但这个学员很可能在那次尝试中运气较好,因此无论是否受到表扬,下次表现都可能下降。同样地,教练只会在学员表现异常糟糕时严厉批评,而这种糟糕表现很可能包含了运气不佳的成分,因此无论教练如何反应,下次表现都很可能改善。这位教练将随机过程中不可避免的波动错误地解释为因果关系。
这个挑战需要一个回应,但一堂关于预测代数的课程不会受到热烈欢迎。相反,我用粉笔在地板上画了一个靶心,要求房间里的每个人背对靶心,连续投掷两枚硬币,不允许看目标。我们测量了硬币到靶心的距离,并将每位参与者的两次结果写在黑板上。然后我们将结果重新排序,从第一次投掷的最佳表现到最差表现。结果显而易见:大多数(但不是全部)第一次表现最好的人在第二次投掷中表现下降,而第一次表现较差的人通常有所改善。
我向教练们指出,他们在黑板上看到的情况与他们所听到的关于学员连续尝试表现的描述完全吻合:糟糕的表现通常伴随着改进,良好的表现伴随着退步,这一切都无需表扬或惩罚的帮助。
那天我发现,这些驾校教练陷入了一个不幸的困境:因为他们在学员表现不佳时进行惩罚,所以即使惩罚实际上无效,他们也大多会因为随后的改进而得到“奖励”。更重要的是,教练们在这种困境中并不孤单。我偶然发现了人类境况的一个重要事实:生活给我们的反馈是扭曲的。由于我们倾向于在他人取悦我们时对他们友善,在他人惹恶我们时对他们恶劣,从统计学角度来看,我们因为友善而受到惩罚,因为恶劣而得到奖励。
几年前,科学作家约翰·布罗克曼要求多位科学家分享他们的“最喜欢的公式”。我提供了这样的表述:
成功 = 天赋 + 运气
巨大成功 = 稍多天赋 + 大量运气
运气经常对成功有所贡献,这个不足为奇的观点在我们将其应用到体育比赛时会产生令人惊讶的后果。让我们以中国游泳队在全国锦标赛的表现为例。为了简化分析,假设在比赛的前两天,参赛选手的平均成绩都是标准水平。我们关注一位在第一天表现出色的选手,他的成绩比平均水平快了6秒。从这个优异成绩我们能学到什么?
一个直接的推论是,这位游泳选手比赛事中的平均参赛者更有天赋。根据成功公式,另一个同样合理的推论是:第一天表现如此出色的选手很可能在那天享受了超出平均水平的运气。如果你接受天赋和运气都对成功有贡献,那么认为成功选手幸运的结论与认为他有天赋的结论一样有根据。
同样,如果你关注一个在第一天表现不佳的选手,你有理由推断他既天赋较低又运气不好。当然,你知道这些推论都不是确定的。完全有可能表现不佳的选手实际上非常有天赋,只是那天特别不走运。尽管不确定,但基于第一天成绩的以下推论是合理的,并且正确的次数会多于错误的次数:
现在,假设你知道一位选手第一天的成绩,被要求预测他第二天的表现。你预期选手在第二天会保持相同的天赋水平,所以对第一位选手你的最佳猜测是“超平均”,对第二位选手是“低于平均”。然而,运气是另一回事。由于你无法预测选手在第二天(或任何一天)的运气,你的最佳猜测必须是运气将是平均水平,既不好也不坏。
这意味着在没有任何其他信息的情况下,你对选手第二天成绩的最佳猜测不应该是他们第一天表现的重复。你最多只能说:第一天表现出色的选手在第二天也可能成功,但不如第一天,因为他第一天可能享受的非凡运气不太可能持续。第一天表现不佳的选手在第二天可能仍低于平均水平,但会有所改善,因为他可能遭遇的不幸连续不太可能继续。
我们还预期两位选手之间的差异在第二天会缩小,尽管我们的最佳猜测是第一位选手仍会比第二位表现更好。我的学生总是惊讶地听到,对第二天最佳预测的表现更加温和,更接近平均值而不是作为预测基础的证据(第一天的成绩)。这就是为什么这种模式被称为回归均值。原始分数越极端,我们预期的回归越多,因为极其优异的成绩暗示了非常幸运的一天。
现在让我们逆转时间箭头。按选手在第二天的表现排列,查看他们在第一天的表现。你会发现完全相同的回归均值模式。第二天表现最好的选手在那天可能很幸运,最佳猜测是他们在第一天不那么幸运,表现也没那么好。当你用较晚的事件预测较早的事件时也观察到回归,这个事实应该让你相信回归没有因果解释。
回归效应无处不在,错误的因果解释同样普遍。一个著名的例子是中国体育界常讨论的“封面魔咒”——出现在体育杂志封面上的运动员在接下来的赛季中注定表现不佳。过度自信和承受高期望的压力经常被提供作为解释。但魔咒有一个更简单的解释:能够登上体育杂志封面的运动员必须在前一个赛季表现异常出色,很可能得到了运气的助推——而运气是善变的。
我在观看2022年北京冬奥会自由式滑雪比赛时,听到了类似的评论。每位运动员都有两次机会,结果会合并计入最终得分。解说员在运动员准备第二次尝试时说:“中国选手第一跳表现出色;他现在会紧张,希望保护领先优势,可能表现更差",或者"美国选手第一跳失误,现在他知道没有什么可失去的,会放松下来,这应该有助于他表现更好。”
解说员显然察觉到了回归均值,并编造了一个毫无证据的因果故事。这个故事本身甚至可能是真实的。也许如果我们测量运动员每次起跳前的心率,我们可能会发现他们在第一跳失误后确实更放松。也许不是。要记住的重点是,从第一跳到第二跳的变化不需要因果解释。这是运气在第一跳结果中发挥作用这一事实的数学必然后果。
无论是未被察觉还是被错误解释,回归现象对人类思维来说都很陌生。实际上,它如此陌生,以至于在万有引力理论和微分学被发现两百年后才被首次识别和理解。更令人惊讶的是,理解这个概念需要19世纪英国最杰出的头脑之一,而且是在经历巨大困难之后。
回归均值是在19世纪后期由弗朗西斯·高尔顿爵士发现并命名的。高尔顿是查尔斯·达尔文的表兄弟,也是著名的博学家。从他1886年发表的题为《遗传身高中向平庸的回归》的文章中,你可以感受到发现的激动,该文章报告了连续几代种子大小的测量结果以及儿童身高与父母身高的比较。
他关于种子的研究写道:
高尔顿显然期望英国皇家研究院的博学听众——世界上最古老的独立研究学会——会像他一样对这个“值得注意的观察”感到惊讶。真正值得注意的是,他对这种统计规律感到惊讶,而这种规律就像我们呼吸的空气一样普遍。回归效应随处可见,但我们没有认识到它们的本质。它们隐藏在众目睽睽之下。
高尔顿花了几年时间才从他发现的大小方面的子代回归发展到更广泛的概念:当两个测量之间的相关性不完全时,回归必然会发生。他需要当时最杰出的统计学家的帮助才得出这个结论。
高尔顿必须克服的障碍之一是测量不同尺度变量之间回归的问题,比如体重和钢琴演奏。这需要使用人群作为参考标准。想象一下,对某小学所有年级的100名儿童测量了体重和钢琴演奏水平,并在每个测量上从高到低排名。如果小明在钢琴演奏中排名第三,在体重上排名第二十七,我们可以适当地说他是个更好的钢琴家而不是更重的人。
让我们做一些简化假设:在任何年龄,钢琴演奏成功只取决于每周练习小时数。体重只取决于吃冰淇淋的量。冰淇淋消费量和每周练习小时数不相关。
现在,使用排名(或统计学家偏爱的标准分数),我们可以写出一些等式:
体重 = 年龄 + 冰淇淋消费量
钢琴演奏 = 年龄 + 每周练习小时数
你可以看到,当我们用体重预测钢琴演奏,或反之亦然时,会有回归均值。如果你对小华只知道他的体重排名第十二(远高于平均水平),你可以(统计上)推断他可能比平均年龄大,同时也可能比其他儿童吃更多冰淇淋。
相关系数在0和1之间变化,是两个测量值共享因素相对权重的度量。理解相关系数的含义对于掌握回归概念至关重要。
理解相关系数的含义对于理解回归概念至关重要。以下是一些有助于理解的具体例子:
用精确仪器以英制或公制单位测量同一物体尺寸的相关系数是1。任何影响一个测量值的因素也会影响另一个测量值;100%的决定因素是共享的。中国成年男性自报身高与体重的相关系数约为0.45。如果包括女性和儿童,相关系数会更高,因为个体的性别和年龄既影响身高又影响体重,提升了共享因素的相对权重。
弗朗西斯·高尔顿花了几年时间才弄明白相关和回归不是两个概念——它们是同一个概念的不同视角。一般规则很简单,但具有令人惊讶的后果:当任何两个分数之间的相关性不完全时,就会有回归均值。为了说明高尔顿的洞察,让我们考虑一个大多数人都觉得很有趣的命题:
你可以在聚会上提出这个问题来引发讨论,你的朋友们会乐于提供解释。即使是那些接触过统计学的人也会自然地从因果角度解释这个陈述。一些人可能认为高智商女性想要避免与同样高智商的男性竞争,或者因为高智商男性不愿与高智商女性竞争而被迫在配偶选择上妥协。
现在考虑这个陈述:
配偶之间智商分数的相关性小于1。
这个陈述显然是真实的,但一点也不有趣。谁会期望相关性是完美的呢?没有什么需要解释的。但你觉得有趣的陈述和你觉得平凡的陈述在代数上是等价的。如果配偶之间的智商相关性小于1(并且男性和女性平均而言智商没有差异),那么高智商女性将嫁给平均而言智商低于她们的丈夫就是数学上的必然结果(当然,反之亦然)。观察到的回归均值不可能比不完全相关更有趣或更有解释性。
你可能对高尔顿在回归概念上的奋斗感到同情。实际上,统计学家大卫·弗里德曼曾经说过,如果在刑事或民事审判中提到回归话题,必须向陪审团解释回归的一方将输掉案子。为什么如此困难?主要原因是本书的一个反复主题:我们的大脑强烈偏向于因果解释,不擅长处理“纯粹的统计”。
当我们的注意力被吸引到一个事件时,联想记忆会寻找它的原因——更精确地说,激活会自动扩散到已经存储在记忆中的任何原因。当检测到回归时会唤起因果解释,但它们会是错误的,因为事实是回归均值有解释但没有原因。
回归效应不正确的因果解释不仅限于大众媒体的读者。统计学家霍华德·维纳列出了一长串著名研究者犯同样错误的名单——将单纯的相关性与因果关系混淆。回归效应是研究中麻烦的常见来源,经验丰富的科学家对无根据因果推论的陷阱保持健康的恐惧。
考虑这个我编造的新闻标题:“抑郁儿童接受能量饮料治疗三个月后显著改善。”这个标题报告的事实是真实的:如果你用能量饮料治疗一组抑郁儿童一段时间,他们会表现出临床显著改善。同样真实的是,让抑郁儿童花时间倒立或每天拥抱猫咖二十分钟也会显示改善。
大多数看到这样标题的读者会自动推断能量饮料或拥抱猫咖导致了改善,但这个结论完全不合理。抑郁儿童是一个极端群体,他们比大多数其他儿童更抑郁——极端群体会随着时间回归均值。连续测试抑郁分数之间的相关性不完全,所以会有回归均值:即使不拥抱猫咖也不喝功能饮料,抑郁儿童也会随时间有所好转。
为了得出能量饮料或任何其他治疗有效的结论,你必须将接受这种治疗的患者组与不接受治疗的“对照组”(或更好的是,接受安慰剂的组)进行比较。对照组预期仅通过回归就会改善,实验的目的是确定治疗组患者的改善是否超过回归能够解释的程度。
让我们通过一个商业案例来进一步理解回归均值的实际应用。假设你是某大型零售连锁企业的销售预测员,该企业在全国有多家门店。所有门店在规模和商品选择上都相似,但由于位置、竞争和随机因素,销售额有所不同。现在给你2023年的结果,要求预测2024年的销售额。经济学家的整体预测是销售额将增长10%。
学习了本内容后,你知道对每家门店简单地增加10%的明显解决方案是错误的。你希望你的预测具有回归性,这需要对表现不佳的分店增加超过10%,对其他分店增加较少(甚至减少)。但如果你询问其他人,你可能会遇到困惑:为什么你要用一个显而易见的问题来烦扰他们?正如高尔顿痛苦地发现的那样,回归概念远非显而易见。
回归均值揭示了统计世界中一个根本性的规律:当任何两个测量值之间的相关性不完美时,极端值总是倾向于向平均值靠拢。这个看似简单的概念却蕴含着深刻的启示,它告诉我们随机性在许多我们认为有规律的现象中发挥着重要作用。
更重要的是,回归均值暴露了人类思维中一个系统性偏差:我们天生倾向于为观察到的变化寻找因果解释,而忽视了这些变化可能仅仅是统计上的必然结果。这种偏差在管理实践、教育方法、医疗诊断等诸多领域都会产生误导性的结论。
教育与培训领域:教师和培训师需要意识到,学生表现的起伏往往包含随机成分。不应该将偶然的优异表现归因于特定的教学方法,也不应该将暂时的低迷完全归咎于教学失误。
商业管理决策:企业管理者在评估部门或员工绩效时,应该考虑回归效应。一个季度的卓越表现可能包含运气成分,而持续稳定的表现比偶尔的峰值更有参考价值。
医疗健康评估:在评估治疗效果时,医生和研究人员必须设立对照组,以区分真正的治疗效果与自然的回归现象。
投资与风险管理:金融分析师需要认识到,投资业绩的极端表现往往会回归均值,过度依赖历史极端表现进行未来预测可能导致错误决策。
这些对话提醒我们,在日常工作和生活中时刻保持对回归均值的敏感性,能够帮助我们做出更加理性和有效的判断。理解回归均值不是为了消除所有的不确定性,而是为了在面对变化时保持适当的谦逊和理性,避免被随机波动所误导。