在心理学的众多研究领域中,智力研究是最具争议性也最为复杂的话题之一。我们每个人是否天生就拥有某种一般性的智力能力?能否用一个有意义的数字来量化这种能力?这些问题不仅存在于学术讨论中,更直接影响着教育政策、司法判决,乃至个人的人生轨迹。智力测试究竟是帮助人们找到合适机会的工具,还是披着科学外衣的歧视性手段?
智力研究围绕四个核心问题展开:智力究竟是什么?如何科学地评估它?它在多大程度上源于遗传而非环境?不同个体与群体之间的测试分数差异,又意味着什么?

许多人谈论智商时,就像在讨论身高一样,仿佛它是一个固定不变、客观存在的特质。但这种想法犯了一个重要的逻辑错误——具象化谬误。我们创造了一个概念,给它取了个名字,然后就说服自己相信这个东西在现实世界中客观存在。当有人说“她的智商是 120”时,实际上是在将智商具象化,把它想象成这个人拥有的某样东西,而不是她在某次特定智力测试中获得的分数。更准确的说法应该是:“她在智力测试中得了 120 分。”
在亚马逊雨林中,智力可能体现在对当地药用植物的了解上;在中国的高中课堂里,智力可能表现为在认知任务上的卓越表现。在每种情境中,智力都是从经验中学习、解决问题并运用知识适应新情况的能力。这就好比问“什么是美?”一样,答案很大程度上取决于所处的文化背景。唐朝人认为丰满是美,当代人可能更推崇苗条;古希腊人崇尚肌肉发达的体格,而现代知识工作者可能更看重大脑的“肌肉”。
物理学家史蒂芬·霍金曾被问及自己的智商时回答:“我不知道。那些吹嘘自己智商的人都是失败者。”这句话提醒我们,智力的意义远不止一个数字那么简单。
智力是一个社会建构的概念,不同文化认为“聪明”的属性,往往是那些在该文化中能够获得成功的特质。
围绕智力本质的争论可以追溯到一个多世纪前,至今仍未平息。有人在科学领域天赋异禀,有人在人文学科出类拔萃,还有人在体育、艺术或音乐方面才华横溢。这种差异是否意味着智力本质上是多元的?还是说背后有一种统一的能力在支撑?心理学家为此提出了几种截然不同的理论。
查尔斯·斯皮尔曼认为人类拥有一种一般智力,通常称为 g 因子。他开发了因子分析这一统计程序,发现那些在某一领域表现突出的人,通常在其他领域也会得分较高。斯皮尔曼相信,一套共同的技能组合——g 因子——是所有智力行为的基础。
这与体育能力的道理类似。跑步速度与举重力量虽然是不同的能力,但优秀的运动员往往在多个项目上都表现不俗,因为背后有一种一般性的运动能力在支撑。g 因子的支持者认为,智力也是如此。
霍华德·加德纳则提出了截然不同的观点。通过研究大脑损伤患者和学者综合症患者,他发现某些能力可能受损,而其他能力保持完好,由此主张人类拥有的并非“一种”智力,而是多种相对独立的智力。
金·皮克是学者综合症的一个极端案例。他可以在极短时间内阅读并记住整页文字,已背诵九千余本书,能像导航系统一样提供全国城市的路线指引,却无法自己系扣子,对抽象概念的理解也十分有限。如果智力真的是单一的 g 因子,这种现象便很难解释。
罗伯特·斯腾伯格提出了一种折中方案,将智力分为三个维度:
分析智力是传统智力测试所评估的学术问题解决能力,能够较好地预测在校成绩。
创造智力是适应新情况和产生新想法的能力,在面对从未遇到过的问题时尤为重要。
实用智力是应对日常任务的能力,这些任务往往定义模糊,有多种可行的解决方案。
以商业高管为参照,他们可能在标准化测试中表现平平,但在管理团队、制定战略、处理复杂人际关系方面却游刃有余,这正是实用智力的体现。
多元智力理论和三元智力理论在理论上很有吸引力,但 g 因子仍然是目前预测各种复杂任务和工作表现的重要指标。智力并非成功的唯一条件,坚韧、毅力和良好的机遇同样不可或缺。

传统的学术智力测试只能衡量人类认知能力的一部分。创造力和情商这两个领域,长期以来被标准化测试所忽视,却在现实生活中发挥着举足轻重的作用。一个在考试中名列前茅的人,未必能在复杂的人际关系中游刃有余;一个在标准化测试中表现平平的人,却可能拥有令人叹服的创造力。认识到这一点,对于我们理解人类的全部潜能至关重要。
创造力是产生既新颖又有价值的想法的能力。数学家安德鲁·怀尔斯用了三十余年时间思考费马最后定理,最终在一个清晨,关键的推导思路突然出现在他脑海中:“它如此美妙,如此简单,如此优雅。我无法理解自己怎么会错过它。”研究表明,标准智力测试分数达到约 120 便足以支持创造力,但更高的分数并不一定带来更高的创造力。
传统智力测试要求收敛性思维,即寻找唯一正确的答案;而创造力测试需要发散性思维,比如“一块砖头有多少种用途?”大脑研究发现,这两种思维模式激活的脑区并不相同:左顶叶损伤会影响传统智力测试表现,而某些额叶区域损伤虽然保留了读写计算能力,却会摧毁想象力。
创造力的产生离不开五个关键要素:
专业知识为创造提供原材料。路易·巴斯德曾说:“机会只垂青有准备的头脑。”深厚的知识积累是创造性思维的前提。
想象性思维技能是以新颖方式看待事物、识别模式、建立意外联系的能力,这是创造力的核心。
冒险性人格体现在愿意寻求新体验、容忍模糊性和不确定性,以及在遭遇阻碍时坚持下去的韧劲。
内在动机是指被兴趣、满足感和挑战本身所驱动,而不是被外部的奖惩机制所左右。
创造性环境是指一种能够激发、支持并帮助完善创意想法的外部条件,包括开放的人际氛围和充足的探索空间。
创造力并不等同于高智力,而是这五个因素相互配合的产物。有些人拥有广博的知识,却缺乏打破常规的勇气;有些人充满热情,却缺乏深厚的知识基础。两者都不完整。
高学业成绩者并不总是在生活中如鱼得水。神经科学家安东尼奥·达马西奥研究过一位名为埃利奥特的患者,他在接受脑肿瘤切除手术后,智力测试成绩依然正常,却再也感受不到任何情绪波动。达马西奥在与他长时间交谈的过程中,“从未看到他流露出一丝情感,没有悲伤、没有不耐烦、没有沮丧。”
结果呢?埃利奥特失去了工作,破产,婚姻破裂,再婚后又离婚,最终需要依靠兄弟姐妹的照料度日。这个案例清楚地说明,情绪感知与调节能力对日常生活有着深刻的影响。情商的核心涵盖四个层面:
高智商但低情商的人往往在学业上表现优秀,却在需要情感洞察力的职业发展、亲密关系和育儿实践中屡屡碰壁。
现代神经科学技术让研究者得以从生物学角度探索智力的基础。大脑的结构与功能特征,究竟在多大程度上与智力水平相关?这是一个兼具理论意义与现实价值的问题。目前的研究表明,大脑并非智力的简单容器,而是与认知能力之间存在复杂的双向关系。
当英国诗人拜伦 1824 年去世时,医生发现他的大脑重达五磅,而不是正常的三磅。三年后,贝多芬去世,他的大脑被发现有异常多且深的脑回。这些发现让早期科学家们开始热衷于研究天才的大脑,然而现实很快打破了他们的幻想:一些天才的大脑很小,而一些智力平庸者却有着同样巨大的大脑。不过,近年来使用核磁共振直接测量大脑容量的研究确实发现,调整体型差异之后,大脑容量与智力分数之间存在约 +0.33 的相关性。
爱因斯坦的大脑虽然在总体重量上并不比普通人更大,但在顶叶下部区域却比平均水平大 15%,而这一区域恰好是处理数学和空间信息的核心区域。这也许解释了为何爱因斯坦、费曼等伟大物理学家都说话较晚——不同脑功能在争夺有限的大脑“地产”,某些区域的扩大可能导致其他区域相对偏小。

智力较高的人是否在字面意义上思维更快?研究结果表明,在某些任务上确实如此。那些能够快速分辨视觉信息差异的人,往往在言语能力测试中得分更高。研究还发现,智力分数与感知信息速度之间的相关性通常在 +0.3 到 +0.5 之间。
高智商者的大脑在接收简单感觉刺激时,反应不仅更快,神经波形也更为复杂和精确。有研究短暂呈现一个不完整的图形后立即遮蔽,要求被测者判断某条线段的长短,感知更快、更准确的人,往往在标准智力测试中同样表现突出。
神经处理速度只是智力的一个侧面。在简单任务上反应迅速,并不等同于在复杂推理或创造性问题上一定表现出色。大脑功能与智力之间的关系,远比“处理器越快越好”这个比喻所描述的更为复杂。
智力测试的历史,既是科学不断走向严谨的进步过程,也充满了偏见与误用的教训。从最初充满主观色彩的测量尝试,到今天经过标准化验证的评估工具,这段历史提醒我们:科学研究本身并不能自动免疫于价值判断的干扰。
英国科学家弗朗西斯·高尔顿是查尔斯·达尔文的表弟,他对测量人类特质有着浓厚的兴趣。在进化论的启发下,他试图通过测量“天赋”来鼓励高能力者相互结合。1884 年伦敦博览会上,超过一万名参观者接受了他设计的评估,内容涵盖反应时间、感官敏锐度、肌肉力量等指标。然而,这些测量之间毫无相关性,杰出人士和普通人在数据上也几乎没有差别。高尔顿的失败告诉我们,科学家自身的假设和信念,会深刻影响研究的设计方向。
现代智力测试运动始于二十世纪初的法国。法国法律要求所有儿童入学,部分孩子因学习困难而无法跟上常规课程,需要特殊安置。为避免教师的主观判断带来偏见,教育部长于 1904 年委托阿尔弗雷德·比内研究相关问题。比内和合作者西蒙提出,儿童智力发展遵循共同路径,只是速度有所差异,由此提出了“心理年龄”的概念——即某个孩子的智力表现与哪个年龄段的典型水平相当。
比内始终强调,他的测试并不是测量天生智力的工具,而是为了识别需要额外关注的儿童。他相信通过有针对性的训练,可以提升低分儿童的认知能力,并将这一方法称为“心理矫正术”。
然而,比内的担忧在他 1911 年去世后很快成为现实。斯坦福大学教授路易斯·特曼改编了比内的测试,发展出沿用至今的“斯坦福-比内”量表。德国心理学家威廉·斯特恩进一步提出了智商的计算公式:心理年龄除以生理年龄再乘以 100。特曼受到优生学思潮的影响,设想智力测试最终将“减少智力缺陷者的繁殖,消除大量犯罪、贫困和工业低效”。在他的推动下,美国政府开发了大规模智力测试,用于评估移民和一战新兵。部分心理学家据此宣称某些族裔群体智力低下,相关数据也成为 1924 年限制性移民法出台的舆论土壤。
今天最广泛使用的智力测试是韦克斯勒成人智力量表,以及相应的儿童版本和学前版本。这类测试不仅提供总体智力分数,还分别给出言语理解、知觉组织、工作记忆和处理速度等维度的分数。
一个被广泛接受的心理测试需要满足三项核心标准:
智力测试在预测早期学业成绩方面表现较好,六至十二岁儿童的智力分数与学业成绩之间的相关性约为 +0.6。但随着学生进入更高年级,这一预测力逐渐减弱,原因在于影响成就的因素越来越复杂,单纯的认知能力只是其中之一。
智力测试分数可以用于识别学习需求、评估认知功能,但不应被视为衡量一个人价值和全部潜力的唯一尺度。任何一种测试所能捕捉到的,都只是人类能力的一个截面。
如果对同一个人定期测试智力,分数会保持稳定吗?这个问题对父母、教育工作者和政策制定者都有重要意义。研究结果表明,智力测试分数并非一成不变,但随着年龄增长,它的稳定性会逐渐提高。

新父母常常焦虑地比较自己孩子和其他婴儿的表现,试图从早期行为中判断孩子的智力水平。但研究表明,除极度受损或极早熟的情况外,三岁前的观察和测试只能粗略预测儿童日后的认知能力。
有研究发现,对图片很快感到厌倦、更倾向于注视新图片的婴儿,在二十余年后的智力测试中往往得分略高,但这种预测非常粗糙。阿尔伯特·爱因斯坦学说话的时间比同龄人晚,早期表现并不能决定终生的成就。
到四岁左右,儿童的智力测试成绩开始对青少年和成人阶段的分数具有一定预测力。七岁之后,分数虽然不是固定不变的,但会趋于稳定,且这种稳定性随年龄增长而进一步加强。高分青少年中,早期阅读者的比例明显偏高。一项针对认知发育超前的初中生的调查发现,这一群体中超过半数在四岁前已开始独立阅读。
1932 年 6 月的一个周一早晨,苏格兰几乎所有出生于 1921 年的孩子——近九万名十至十二岁的儿童——都参加了统一的智力测试。这批数据在此后数十年间埋藏于苏格兰教育研究委员会的档案室中,直到 1997 年才被研究者帕特里夏·惠利重新发现。伊恩·迪尔里随后对 542 名八十岁的幸存者进行了再次测试,与 1932 年的分数进行比对。相隔七十年、经历了各种人生起伏之后,两套分数之间的相关性高达 +0.66,令研究者深感震惊。
更值得关注的是,这项研究还揭示了智力与健康之间的关联:在十一岁测试中得分最高的那 25% 的女孩,有 70% 在七十六岁时仍然健在;而得分最低那 25% 的女孩中,这一比例只有 45%。十一岁时的智力分数越高,日后独立生活的可能性越大,晚发性阿尔茨海默病的风险也越低。
“你是否能活着领取养老金,部分取决于你十一岁时的智力水平。”——伊恩·迪尔里,《智力、健康与死亡》,2005 年
了解一项测试的意义,最直观的方式是观察正态分布曲线两端的人群。智力的两个极端——智力障碍和超常智力——不仅帮助我们理解测试的效度,也让我们看到认知差异背后更深刻的社会议题。
在正态分布曲线的低端,智力测试分数在 70 分或以下的人群,如果同时表现出日常适应功能的明显受限,则可能被认定为智力障碍。大约只有 1% 的人口同时符合这两项标准,男性的比例高于女性。
智力障碍有时具有明确的生理原因。唐氏综合症是由于二十一号染色体多出一条而引起的,患者的认知功能受损程度不等。在过去两个世纪里,社会对这一群体的照护理念经历了反复摇摆:从家庭照料,到机构收容,再到二十世纪后半叶兴起的正常化运动。正常化理念主张让智力障碍者尽可能在自己的社区中正常生活,轻度障碍儿童被融入普通课堂,而非被单独隔离。
需要认识到,智力测试的分界线并非绝对的生物学界限,而是社会建构的标准。由于整体人口的平均智力分数会随时代变化而缓慢上升,测试每隔若干年就需要重新校准,这可能导致处于临界分数附近的人,在某次校准后突然“越过”了诊断标准。
路易斯·特曼从 1921 年起追踪了 1500 余名智商超过 135 的加州学童。与社会上流传的“神童适应不良”的刻板印象相反,这些高智商儿童普遍健康、适应良好,学业表现也异常突出。在数十年后的回访中,这一群体中出现了大量医生、律师、教授、科学家和作家,但没有诺贝尔奖得主——这说明超常智力是成就的重要条件之一,却远非充分条件。
近年来,一项对 13 岁时数学能力位列同龄人前 1% 的学生的追踪研究显示,这一群体在 33 岁时获得专利的可能性,是同为前 1% 但分数稍低者的两倍;获得博士学位的比例也高达三分之一,明显高于同层次但分数较低的学生。
高智力是许多人生道路上的有利条件,但每个孩子都拥有属于自己的天赋方向。将所有儿童简单地按照单一标准划分“有天赋”与“没天赋”,不仅在逻辑上站不住脚,在实践中也可能产生自我实现的负面效应:那些被隐性标记为“无天赋”的孩子,往往会逐渐按照外界的期待塑造自己。

智力究竟是天生的,还是后天培养的?这个问题不仅是学术争论,更具有深刻的社会意涵。如果智力主要由基因决定,那么社会经济地位就可能被解读为一种“天赋秩序”;如果智力主要由环境塑造,那么贫困家庭的孩子便是不平等机会的受害者,而非能力的天然低下者。事实上,遗传与环境并非对立的两极,而是相互嵌套、共同作用的。
支持智力具有遗传基础的证据来自多个方向。共同成长的同卵双胞胎,其智力测试分数的相似程度几乎等同于同一个人两次参加同一测试;即便是在不同家庭中分开成长的同卵双胞胎,分数也高度一致。双胞胎研究者托马斯·布夏德估计,约 70% 的智力测试分数差异可以归因于遗传变异。
大脑扫描的研究同样支持遗传的作用:同卵双胞胎在与言语和空间智力相关的脑区,灰质体积几乎完全一致,而异卵双胞胎之间的相似程度则低得多。分子遗传学的研究还发现了若干与智力相关的染色体区域,智力似乎是多基因决定的特质,意味着许多基因都参与其中,每个基因单独贡献的效应量都非常小。
遗传力是一个容易被误解的概念。它描述的是:在特定人群中,个体间智力差异有多少比例可以用遗传差异来解释。主流研究估计这一比例约为 50%。这并不意味着你的基因决定了你 50% 的智力,环境决定了另外 50%。遗传力描述的始终是群体层面的差异来源,而非个体智力的构成成分。
更重要的是,遗传力的大小本身会随环境条件的变化而改变。在环境条件高度相似的群体中,个体差异几乎只能由基因来解释,遗传力接近 100%;而在环境差异极大的群体中,环境因素的解释力更强,遗传力相应降低。
基因并不是孤立地决定智力,而是通过与环境的互动来发挥作用。一个稍有学业天赋的孩子更可能受到老师的鼓励,进而阅读更多书籍、提出更多问题,这些经历反过来又进一步增强了他的认知能力。基因为发展设定了可能性的范围,而环境决定了这个范围内实际达到的高度。
即使基因在个体差异的形成中扮演重要角色,生活经历同样举足轻重。极度贫乏的早期环境会严重压制天生的智力潜力。一项干预研究中,研究者训练孤儿院的看护者与婴儿进行促进语言发展的互动游戏,到二十二个月大时,这些婴儿已能说出五十余个物体和身体部位的名称,其认知发展水平令大多数婴儿被收养家庭争相接纳——这在孤儿院环境中极为罕见。
营养状况也是不可忽视的因素。对存在营养不良问题的婴儿进行营养干预后,贫困对其身体发育和认知发展的负面影响会显著减少。学校教育则是另一个关键变量,接受过更多年正规教育的人,智力测试分数普遍更高,且这一效应在控制家庭背景之后依然成立。
基因和经历共同编织出智力的底色。但认知能力最终转化为何种成就,还取决于个人的信念与动机。相信智力可以通过努力改变的人,往往比相信智力固定不变的人,展现出更强的学习意愿和成长潜力。
如果智力测试的分数在不同群体之间不存在任何系统性差异,关于遗传与环境的学术争论便可以停留在象牙塔里。但群体差异确实存在,这迫使我们必须认真审视:这些差异从何而来,又意味着什么?
1932 年对苏格兰所有十一岁儿童的测试结果显示,女孩的平均智力分数为 100.6,男孩为 100.5——两者几乎没有差别。就一般智力而言,男女之间的相似性远大于差异。然而,研究确实发现,在某些特定认知领域,男女之间存在统计上可以观察到的差异。
从进化心理学的角度解读,这些差异可能反映了人类祖先在不同生存任务中所面临的选择压力:追踪猎物和空间导航对男性祖先更为关键,而对可食用植物位置的精确记忆对女性祖先的生存更为重要。不过,这类进化解释难以通过直接证据加以验证,在接受时需保持审慎。
研究一致发现,不同种族群体在平均智力测试分数上存在差异,这一事实本身并无争议。真正有争议的,是如何解读这种差异。过去一百年间,整体人口的平均智力测试分数以每十年约三个点的速度持续上升,这一现象被称为弗林效应。今天的人与一百年前的人之间的代际分数差距,与当下某些种族群体之间的平均分数差距相当,但没有人会将代际差距归因于遗传,由此可以推断,环境条件的系统性差异很可能是种族分数差距的主要来源。
在遗传层面,种族内部的个体差异远大于种族之间的差异。两个中国人之间的基因差异,平均而言大于一个中国人和一个肯尼亚人之间的差异。种族更多是一个文化和社会的分类,而非一个清晰的生物学概念。
史蒂文·斯宾塞的研究揭示了刻板印象对测试表现的直接影响。当女性在测试前被告知“女性在数学测试中通常不如男性”时,她们的成绩确实会下降;但如果告知她们“女性通常与男性表现相当”,这种差距便会消失。类似的效应在黑人学生的言语能力测试中同样被观察到。一个简单的自我肯定练习,让学生花十五分钟写下自己重视的价值观,就能显著提升非裔美国学生的学期成绩。
刻板印象威胁是一种真实存在的心理机制,测试的表现不仅受到认知能力的影响,还受到社会预期和心理情境的塑造。在评估任何群体的测试结果时,必须充分考虑这一因素的干扰作用。
在探索智力这个复杂话题的旅程中,有几点认识值得反复强调。智力不是一个你或拥有或没有的固定“东西”,而是一个在特定文化和情境中被赋予意义的社会建构。无论是一般智力理论还是多元智力理论,其背后都是对人类认知多样性的不同诠释,没有哪一种框架能够完整地描述人类的全部潜能。
从比内的善意设计,到特曼的意识形态误用,智力测试的历史一再提醒我们:科学工具的价值中立是一种幻觉,使用者的动机和假设始终渗透在研究设计和结果解读之中。
基因和环境对智力的影响是相互交织的,既非“全是天生的”,也非“完全由后天决定”。更重要的是,群体差异不能为针对个体的判断和歧视提供任何依据。任何一个群体的钟形曲线,与另一个群体的钟形曲线都有大量的重叠区间,知道某人属于哪个群体,并不能告诉我们这个人的能力如何。
智力测试的意义,在于帮助识别谁最能从早期干预中受益,而不是为人贴上一生难以撕去的标签。创造力、情商、实用智力,以及那些无法被任何量表捕捉的品格和韧性,同样是人类适应世界的宝贵资源。生活中真正让人感到充实和快乐的事情,绝大多数都游离在智商测试的测量范围之外。
木匠的空间能力不同于程序员的逻辑能力,后者又不同于诗人的言语能力。成功的方式有很多种,我们的差异是人类适应性的变异,而不是高低优劣的标志。智力研究的价值,不在于给人排出座次,而在于帮助每一个人认识自己的认知特点,找到最适合自己的发展路径。