从小学的期中期末考试,到中考、高考,再到各种资格证书考试、公务员考试、研究生入学考试——标准化测试几乎贯穿了每个人的求学和职业生涯。你此刻能够阅读这段文字,或许正是因为当年某场考试的分数达标。

监考老师在讲台上一本正经地宣读纪律,“不准提前翻开试卷”,教室里紧张得连挂钟的滴答声都清晰可闻。这些场景不仅是记忆的一部分,更在无形中塑造了人生轨迹。
现代心理测试的范围远不止学业成就测试。智力测试、能力倾向测试、职业兴趣测试、人格测试……这些测试工具已经渗透到教育、就业、医疗等各个领域。据统计,全球每年有超过两千六百种不同的心理测试在使用,测量着人类行为的方方面面。这背后已经形成了一个年产值数亿美元的庞大产业。
有趣的是,研究显示现代学生的平均智商测试成绩实际上在稳步上升,但许多人却担心教育质量在下降。这种矛盾现象究竟是怎么回事?
第一批真正有用的智力测试诞生于二十世纪初,此后衍生出无数“后代”。今天,心理测试已成为现代社会不可或缺的组成部分。但这些测试真的在测量我们以为的东西吗?结果可靠吗?智力究竟是天生的还是后天培养的?不同群体分数差异背后隐藏着什么?这些问题不仅关乎科学,更牵涉教育公平与社会正义。
理解智力测试需要追溯其历史。一个多世纪前,心理学家开始尝试用科学方法测量人类心智能力。这些早期探索虽然粗糙,却开启了心理测试的新纪元。
智力究竟是单一能力还是多种能力的组合?主要由基因决定,还是环境塑造的产物?持续了一个多世纪的“先天与后天之争”至今仍在继续,答案远比想象的复杂。
一个数字真能代表一个人的全部智慧吗?不同群体在测试中的平均分数差异,是否意味着某些群体天生更聪明?还是问题出在测试本身?在这个充斥着各种测试和评估的时代,了解这些工具的价值与局限同样重要。
正如你不会盲目相信显示不准的体重秤,也不应无条件相信设计不当的心理测试。
心理测试是对一个人行为样本的标准化测量工具。关键词在于“行为样本”——无论智力测试还是人格测试,测量的都只是特定时刻、特定情境下的表现片段,而非全部。
医生测血压时得到偏高读数,可能确实准确,但也可能患者刚爬完楼梯或正因迟到而焦虑。同理,参加智力测试时若恰好失眠或心烦意乱,分数就难以真实反映智力水平。这就是取样问题——任何基于抽样的测量方法都无法完全消除这一局限。
测试分数只是某个时刻的行为快照,不是你全部能力的完整画像。因此,解读测试分数时必须保持谨慎,切忌过度解读。
心理测试虽然种类繁多,但大致可以分为两大类:心智能力测试和人格测试。这两类测试的目的和性质都截然不同。
心智能力测试起源于测量智力的早期尝试,如今仍然是最常见的心理测试类型。这类测试主要包括三个子类别:智力测试、能力倾向测试和成就测试。
智力测试关注的是一个人的综合心智能力,测量的是智力潜能而非已经学到的知识。比如,一个从未学过高等数学的人,仍然可能在智力测试中表现出色,因为这类测试主要考察的是抽象推理、逻辑思维等基础认知能力。
能力倾向测试则更加细化,它将心智能力拆解为不同的组成部分。就像一个综合体检会分别检查你的心脏、肝脏、肾脏功能一样,能力倾向测试会分别评估你的言语推理、数字运算、抽象思维、空间感知等特定能力。这样的细分评估可以帮助学生和求职者更好地了解自己在哪些方面有优势,在哪些方面需要加强。
成就测试与前两者不同,它测量的是你已经掌握的知识和技能。你在学校参加的期末考试、高考、各种资格证书考试,本质上都是成就测试。比如,英语四六级考试测量的是你已经学到的英语知识,而不是你学习语言的潜在能力。
人格测试则是另一个重要类别。这类测试评估的是你的动机、兴趣、价值观和态度等心理特征。与智力测试不同,人格测试的问题没有对错之分,它们只是帮助描绘你独特的心理特征。有些心理学家更愿意称这些为“人格量表”而非“测试”,正是因为它们不涉及对错评判。
同一个测试在不同城市做,分数为何可以比较?因为标准化。
标准化是心理测试的基石,意味着每个人都面对相同的指导语、题目、时间限制和评分标准。就像体育比赛,只有所有运动员遵守相同规则,结果才有意义。若高考时不同省份的答题时间不同,比较结果就失去了意义。标准化确保测试的公平性和可比性。
标准化还包括另一个关键要素:建立测试常模。常模就像一面镜子,让你知道自己分数在人群中的位置。在一个自信心测试中得了二十六分,这个分数是高还是低?没有常模,数字就毫无意义。
常模通常会把原始分数转换成百分位数。百分位数告诉你,有百分之多少的人得分等于或低于你的分数。比如,分数处于第八十二百分位,意味着在一百个人中,有八十二个人的分数等于或低于你,也就是说你的水平超过了大多数人。
心理测试中的一切都是相对的。测试告诉你的不是你有多聪明或多自信,而是你相对于其他人有多聪明或多自信。这就是为什么常模如此重要。
测试常模应该基于大规模、精心选择的样本,能够代表更广泛人群。以智力测试为例,大多数测试的常模基于两千到六千人的样本建立,这些样本的人口统计特征尽可能接近全国人口的实际分布。
常模不是一劳永逸的。随时间推移,社会在变化,人们能力水平也在变化,常模需要定期更新。用二十年前的常模解读今天的测试分数,就像用二十年前的体重标准判断现在的儿童是否超重——结果很可能不准确。

一个好的测量工具必须具备一致性。你的体重秤若今天显示六十公斤,明天显示七十公斤,后天又显示五十五公斤,你肯定会认为这个秤坏了。同理,一个好的心理测试也必须产生前后一致的结果,这种一致性叫做信度。
评估信度最常用的方法是重测信度。研究者让同一组人在间隔一段时间(通常几周)后重新参加同样测试。如果测试测量的是相对稳定的特质(比如智力),两次测试分数应该相当接近。
比如,研究者开发了一个新的性格坚韧度测试,想检验它的信度。他们找来一组学生志愿者参加测试,三周后让同一批人重新测试。理论上,一个人的性格坚韧度在短短几周内不会发生大变化,因此两次测试分数应该很接近。
信度评估需要用到相关系数这个统计工具。相关系数是介于负一和正一之间的数字,表示两组数据之间的关系强度。若大家在两次测试中都获得相似分数,这种一致性会产生较大正相关。相关系数越接近正一,测试越可靠。
多高的相关系数才算可以接受?这没有绝对标准,要看测试性质和用途。大多数心理测试的信度系数在零点七到零点九之间。对于用于重大决策的测试(如招聘或教育分流),信度系数最好在零点九以上。信度越高,对测试结果的信心就越强。信度下降,测量误差的担忧就会增加。信度不足的测试就像刻度模糊的尺子,测量结果难以让人信服。
有了信度还不够。测试可能非常可靠,每次都给出一致结果,但如果测量的不是它应该测量的东西,这个测试仍无价值。这就是效度——测试是否真正测量了它声称要测量的特质。
假设你开发了一个领导力测试,信度很高,重复测量结果一致,但后来发现它实际测量的主要是外向性而非领导力。那么,这个测试的效度就存在问题。在现代测试理论中,效度还扩展到指测试结果的推论和应用是否准确、有用。
内容效度主要关注测试内容是否充分代表要测量的领域,对成就测试和教育测试尤其重要。比如,一场化学期末考试包含大量课上从未讲过、书上也没有的内容,这场考试就缺乏内容效度。建立内容效度的前提是能清楚界定要测量的内容范围。
预测效度关注测试能否预测特定的行为表现。心理测试经常被用来预测学业表现、工作能力或培训适合度,此时预测效度就成核心考量。
预测效度的评估方法是将测试分数与某个独立效标进行相关分析。比如,开发了一个测量程序员能力倾向的测试,想检验它的效度,可以让一批学员参加测试,然后追踪他们在编程培训中的实际表现,看测试分数能否预测训练成绩。若测试真的有效,测试分数高的人在训练中的表现也应该更好,两者之间应存在较强正相关。
构念效度是最复杂也最重要的效度类型。许多心理测试试图测量抽象心理特质,如创造力、智力、外向性或独立性。这些抽象特质被称为假设性构念。测量这些构念时,最关心的就是构念效度——测试是否真正测量了它想要测量的构念。
建立构念效度是复杂过程。首先需要对要测量的构念有清晰理论认识,然后通常需要一系列研究来检验测试分数与其他相关测量之间的相关关系。构念效度的论证要看整体相关模式是否符合理论预期。
以外向性测试为例。若测试真的在测量外向性,它应该与其他外向性指标正相关,与内向性、社交不适等特质负相关,而与智力、责任心等无关特质的相关为零或接近零。只有当这种相关模式与理论预期一致时,才能说测试具有良好构念效度。
构念效度的复杂性在智力测试研究中体现得淋漓尽致。关于智力测试构念效度的争论,堪称心理学史上最持久的论战之一。
虽然早在一千四百多年前,中国科举考试就使用标准化测试选拔人才,但现代心理学意义上的智力测试诞生于十九世纪末的欧洲。一百多年间,智力测试从实验室新奇玩意发展成影响亿万人命运的评估工具,演变过程充满科学探索的激情,也伴随争议和反思。
十九世纪后期,欧洲学者开始用科学方法研究人类心智差异。一位英国学者对家族史产生浓厚兴趣,发现成功和杰出才能似乎在某些家族中代代相传。这些家族大多来自上层社会,接受过良好教育,拥有丰富资源。但他忽略这些优越成长环境,将家族成功归因于遗传,得出结论:智力高低主要由基因遗传决定。
为进一步证明智力是遗传的,他试图开发客观的智力测量方法。他假设智力越高的人感觉越敏锐,于是设计了一系列测量感觉敏锐度的任务,包括高音辨识、颜色感知、反应速度等。然而,这些测量最终被证明与智力关系不大,无法预测一个人在学业或职业上的成功。
尽管测试失败了,他的工作仍有重要意义。他提出“先天与后天”这个经典概念,用来描述遗传与环境的争论,还首创了相关分析和百分位数这些统计方法,更重要的是激发了其他学者对智力测量的兴趣。
转折点出现在二十世纪初。一九零四年,教育部门面临一个实际问题:如何识别需要特殊教育帮助的儿童?当时主要依靠教师主观判断,既不客观也不公平。为解决这个问题,委托心理学家开发客观评估工具。
一九零五年,心理学家发表了第一个真正有用的综合智力测试。创新之处在于:不再像前人那样测量感觉敏锐度,而是直接测量抽象推理能力。测试包含各种需要思考和推理的任务,如理解复杂概念、发现事物之间的关系、解决新颖问题等。
这套测试取得巨大成功:简便易行、成本低廉、评分客观,而且能相当准确地预测儿童学业表现。很快,测试传遍欧洲和美国。
测试用“心理年龄”表示儿童分数。若孩子测试表现相当于某个年龄段儿童的平均水平,他的心理年龄就是那个年龄。比如,实际年龄七岁的孩子,若测试表现相当于普通九岁儿童水平,心理年龄就是九岁。这种表示方法直观易懂,让家长和教师能快速理解孩子智力发展状况。
开发者意识到这只是初步尝试,于是在一九零八年和一九一一年两次修订完善。遗憾的是,一九一一年修订版发表不久,这位开创性心理学家就去世了,但他的工作为后人奠定了坚实基础。
智力并非一成不变的特质。通过练习、热情和正确的方法,任何人都可以提升自己的注意力、记忆力和判断力,从而变得比以前更聪明。

二十世纪初,斯坦福大学心理学家带领团队对原版测试进行大规模扩展和修订。一九一六年,他们发表了斯坦福版智力测试,基本保留原测试核心理念,但引入了重要的新概念:智商。
智商的计算方法很简单:用心理年龄除以实际年龄,再乘以一百。这个比值让不同年龄儿童可以在同一标准上比较。若孩子的心理年龄恰好等于实际年龄,智商就是一百,表示平均水平。
这位心理学家大力倡导智力测试在教育中的应用。在他推动下,学校系统广泛采用智力测试。斯坦福版智力测试迅速成为世界上最有影响力的智力测试,成为后来几乎所有智力测试的参照标准。从一九一六年至今,这套测试虽经历多次修订更新,但始终保持最初核心理念。
二十世纪三四十年代,智力测试面临新挑战。一家大型医院的首席心理学家负责为成千上万成年患者进行心理评估,发现当时测试主要为儿童设计,用在成人身上并不完全合适。于是,他着手开发专门针对成人的高质量智力测试。
一九三九年,他发表了第一个专门为成人设计的智力测试,后来被称为韦氏成人智力量表。随后,又开发了适用于不同年龄段儿童的版本。
测试至少在两个方面进行重大创新。首先,减少了测试对言语能力的依赖,增加大量需要非言语推理的题目。这使测试更加公平,不会因语言表达能力差异而影响对智力的评估。
其次,放弃了智商概念,采用基于正态分布的新评分系统。正态分布是对称的钟形曲线,描述许多人类特质在人群中的分布模式。大多数人得分聚集在曲线中央(平均水平),向两端延伸的人数逐渐减少。十八世纪天文学家发现,测量误差遵循这种分布模式。后来研究表明,从身高、体重到空间能力,许多人类特征都呈现正态分布。
心理学家逐渐认识到,智力分数也符合正态分布。这一洞见让新评分系统成为可能。在这个系统中,原始分数被转换成标准分数,精确标示出一个人在正态分布中的位置,标准差成为衡量单位。
大多数智力测试将分布平均值设为一百,标准差设为十五,以与早期智商比值保持连续性。在这个系统中,一百一十五分意味着比平均水平高一个标准差(十五分),八十五分则意味着比平均水平低一个标准差,一百分代表平均水平。
现代评分系统的优势在于,特定分数在分布中的位置是固定的。无论测试者年龄如何,相同分数代表相同相对位置,旧的智商比值系统则缺乏这种一致性。后来,这种基于正态分布的评分系统被几乎所有智力测试采纳。
二十世纪上半叶,心理学界对智力结构展开持久争论。一位英国心理学家发明了复杂统计方法——因素分析,可以分析许多变量之间的相关关系,识别出彼此密切相关的变量群。若许多变量之间高度相关,就假定有一个共同潜在因素在影响它们。
他用因素分析研究各种具体心智能力测试之间的相关关系,发现所有认知能力都共享一个重要核心因素,称之为一般智力因素,简称为因子。他承认人们也有“特殊”能力(如数字推理或空间能力),但认为个体在这些特定领域的能力主要由一般智力水平决定。
然而,另一位美国心理学家很快提出截然不同观点。他使用略有不同的因素分析方法,得出结论:智力涉及多种能力。他认为前面那位学者及其追随者过分强调一般智力因子,相反将智力划分为七种独立的基本心智能力:言语流畅性、言语理解、空间能力、知觉速度、数字能力、归纳推理和记忆力。
争论持续几十年,在某种程度上甚至延续至今。矛盾的是,两种观点都一直保持影响力。随着计算机技术发展,现代研究者使用改进的因素分析方法反复证明,各种认知测试之间确实存在高度相关,支持一般智力因子的概念。对智力的本质、决定因素和相关因素感兴趣的研究者仍把一般智力因子作为理解心智能力的核心。
然而,从二十世纪八十年代开始,智力测试开发者却朝相反方向前进。他们想给临床医生、教育工作者和学校系统提供更多信息,而非只是一个全局性分数,以便更好诊断学习障碍和评估儿童潜力。为获得理论指导,他们转向了将一般智力分为流体智力和晶体智力的模型。
流体智力涉及推理能力、记忆容量和信息处理速度。晶体智力涉及运用已有知识和技能解决问题的能力。流体智力和晶体智力的区分进一步促进了将一般智力分解为基本组成部分的努力。这些模型为最新版的斯坦福测试、韦氏测试以及许多其他智力测试的修订提供广泛指导。现代智力测试通常基于层次化的智力模型,将一般智力分为十到十五种具体能力。
因此,存在一个有趣悖论:研究者和理论家倾向于痴迷一般智力因子的概念,然而临床医生和教育工作者,以及为他们开发测试的公司,则对测量特定能力更感兴趣。
对智力测试的误解比比皆是,以下澄清几个核心问题。
智力测试曾用智商比值表示分数——心理年龄除以实际年龄再乘以一百。但这个系统已被抛弃,现代智力测试采用基于正态分布和标准差的评分系统。
当听到有人说自己智商一百二十时,这个数字既不意味着答对了一百二十道题,也不意味着拥有一百二十个“智力单位”,而是指他在正态分布中的位置。
全国所有参加某个智力测试的人按分数高低排列,大多数人会聚集在中间位置,向两端人数逐渐减少。分布中心被设定为一百分,标准差是十五分。你的分数标记着你在这个分布中的位置。
现代评分系统的一个巨大优势是可以直接转换成百分位数。如果你的智商是一百二十,你就知道自己大概处于第九十一百分位——也就是说,你的分数高于百分之九十一的人。如果智商是八十五,你处于第十六百分位,意味着百分之八十四的人分数比你高。这种一致性是旧的智商比值系统所不具备的。
但我们必须记住一个关键点:无论测试多么精密,分数记录的只是你在某个特定时刻、特定情境下的表现,而不是你全部的智力潜能。
若一个测试今天告诉你智商一百二十,下个月又说你智商只有一百零五,你还会相信它吗?当然不会。测试的可靠性,也就是信度,是评判测试质量的基本标准。
智力测试的信度相当高。大多数智力测试的信度系数都在零点九以上,意味着重复测量的结果高度一致。与其他类型心理测试相比,智力测试的可靠性首屈一指。
但这不意味着智力测试完全不会出错。测试测量的是行为样本,任何行为样本都可能受各种因素影响。比如,一个学生在参加测试那天恰好失眠,或对测试感到极度焦虑,又或者根本没有动力认真做题,这些情况都可能拉低分数。
最常见的问题是动机不足或焦虑过度导致分数偏低。一个十岁小学生被老师叫去做“非常重要”的测试,若过于紧张无法集中注意力,分数可能远低于真实水平。但在轻松环境中、遇到善于缓解紧张的测试员,同一个孩子的表现可能大不相同。
虽然智力测试的信度很高,但解读具体分数时仍需谨慎。一个分数可能准确反映一个人的智力水平,也可能因各种临时因素而有所偏差。
效度问题涉及测试是否测量了它应该测量的东西。答案既是肯定的,也需要加上很多限定。
智力测试确实是学业智力的有效测量工具。所谓学业智力,指在学校学习中必需的那种智力——主要是抽象推理和言语能力。这不奇怪,因为智力测试从一开始就是为预测学业表现而设计的,这一直是智力测试的主要用途。
研究反复证实,智商分数与学业成绩之间存在显著正相关关系。典型情况下,智商与学业成绩的相关系数在零点四到零点五之间,有些大规模研究甚至发现相关系数高达零点七。考虑到除智力之外,还有许多其他因素会影响学业成绩——如学习动机、自律能力、教师的主观偏见等——这样的相关程度已相当可观。
但这里有一个重大的误解需要澄清:人们普遍认为智商测试测量的是广义的、全面的智力,但实际上并非如此。智商测试主要测量的是学业智力,而不是社交智慧、实践能力、创造力、机械天赋或艺术才能。
研究者询问普通人对智力的理解,发现人们心目中的智力包含三个方面:言语智力、实践智力和社交智力。传统智力测试主要评估第一个方面,对其他两个方面涉及甚少。
有学者指出,尽管智商测试评估认知能力,但它们对现实世界中理性思维和有效决策的预测能力远不如期待的那么强。高智商的人做出非理性、不明智的决定并不罕见,因为智商测试并不评估批判性思维、权衡矛盾证据以及审慎推理的能力。
很多人以为智商是固定不变的数字,如同血型。实际上,智力确实是相对稳定的特质,但远非一成不变。
对学龄前儿童,智商测试预测性很差。两三岁时测得的智商,与十几岁时的智商相关性很低。焦急的父母花钱给三岁孩子测智商,想知道孩子是否特别聪明,其实是在浪费金钱。
随着儿童长大,智商分数逐渐稳定。研究表明,到七到九岁时,智商测试就能相当准确地预测十八岁时的智商。
长期追踪研究发现,在十一岁时接受测试的人,六十六年后在他们七十七岁时重新测试,两次测试之间的相关系数达到零点六三。虽然智商到九岁左右趋于稳定,但仍有相当一部分人会经历明显变化。
智商变化的主要原因是环境因素。生活在不利环境中的儿童,若被转移到更有利学习的环境中,智商可能显著提高。相反,长期处于贫困、缺乏智力刺激的环境中,智商可能下降。虽然智力有一定稳定性,但绝不是刻在石头上的数字。人生经历、教育质量、成长环境都会影响智力发展。
这是充满争议的问题。一方面,数据表明智商高的人更有可能从事高社会地位的职业。另一方面,智商与职业成功的关系远比人们想象的复杂。
智商与职业地位的相关系数约为零点三七,属中等程度相关。换句话说,智商确实有影响,但远非决定性的。高智商的人从事普通工作,智商一般的人事业有成,这些情况都很常见。
智商与收入的关系更加微弱。研究发现,智商与收入的相关系数仅为零点二到零点三。虽然聪明的人平均收入可能稍高,但智商并不能很好地预测一个人会赚多少钱。
智商与职业地位有一定关系不难理解。智商测试衡量学业能力,而学业表现很大程度上决定一个人能接受多少教育、获得什么学位。教育程度又是通往某些职业的敲门砖。想成为医生、律师、工程师,必须先接受相应的高等教育。智商通过影响教育,间接影响职业选择。
但智商能预测具体职业中的工作表现吗?这引发激烈争论。
一些研究者认为,智商与工作表现之间存在相当强的相关(约零点五),这种相关在从简单到复杂的各类工作中都存在,即使工作者有了丰富经验也不会消失。他们还声称,测量具体能力或人格特质对预测工作表现的效果远不如智商测试。
但批评者指出,零点五的相关系数意味着智商只能解释工作表现变异的百分之二十五左右,这个预测能力并不算强。而且,用智商测试筛选员工可能对某些群体造成不利影响,因为不同群体的平均智商存在差异,这涉及公平性问题。
智商与职业成功确有一定联系,但联系强度有限。勤奋、毅力、人际交往能力、情绪管理能力等因素同样重要,甚至可能更重要。
心理测试,特别是智力测试,基本是西方社会产物。在大多数非西方文化中,智力测试并不像在西方那样普遍。
智力测试在一些西方国家得到广泛应用,但引入非西方社会的尝试收效不一。测试在东亚某些国家受到欢迎,早在二十世纪初就被引入,但在其他地区则遇到冷淡或抵制。
西方智力测试难以翻译到其他文化的语言和认知框架中。整个测试过程强调快速信息处理、果断回答、量化能力,本身带有文化特异性。在某些文化中,这种测试方式陌生,甚至令人不安。
更重要的是,不同文化对智力的概念不同,重视的心智技能也各异。在中国传统文化中,智慧不仅包括认知能力,还包括道德修养、处世智慧和情感调节。在一些文化中,智力更强调社区意识和社交技巧,或重视沉思、自我反省等内在品质。
用为特定文化设计的测试评估另一个文化群体,会产生严重问题。测试隐含的价值观、所需背景知识、题目呈现方式,都可能对不同文化背景的人造成不公。因此,虽然智力测试在西方社会是重要工具,但将其视为普遍适用的“智力尺子”则是错误的。智力是多维度、受文化塑造的概念,不是一个可用单一数字简单概括的固定特质。
正态分布两端存在智力水平显著偏离平均值的人群:智力障碍者和天才儿童。这两个群体虽是少数,引发的关注和讨论却远超其人数比例。
智商分数低于平均值两个标准差或更多的人,通常被认为智力水平低于正常范围。但请注意,判断一个人是否存在智力障碍,绝不应仅仅依据智商分数。
长期以来,“智力落后”或“智力低下”这类术语一直困扰着相关人群及其家庭。这些词汇带有强烈的贬损色彩和社会歧视,给当事人贴上了难以撕掉的标签。正是因为这些担忧,相关专业组织在二零零六年决定放弃旧有术语,改用“智力障碍”这个更中性的表述。相应的法律法规也在逐步采用新的术语。
但我们必须认识到,改变术语只是第一步,真正消除社会歧视还需要长期努力。自一九一九年以来,官方术语已经更换了三次(从“低能”到“智力缺陷”再到“智力落后”),但每一次改名后,新术语很快又会沾染上负面含义。这次的“智力障碍”能否真正减少社会偏见,还有待时间检验。
智力障碍指的是综合智力功能低于正常水平,并伴随日常生活适应技能的缺陷,且这种状况始于十八岁之前。适应技能包括三大领域:概念技能(如管理金钱、写信)、社交技能(如交友、应对他人要求)和实践技能(如做饭、使用交通工具、购物)。
这个定义有两个值得注意的地方。其一,智商的临界线是人为设定的。专业组织将临界值定在智商七十到七十五之间,但这个分界线并非一成不变。组织曾在二零零二年将临界值改为七十,然后在二零一零年又改回七十到七十五。五分的差异看似不大,但临界值定在七十五而不是七十,符合特殊教育资格的人数会翻倍。
其二,定义要求同时考虑日常生活适应能力的缺陷,而非仅凭测试分数。这体现专家共识:重大决策不应只基于一个测试分数。学校学习不是唯一重要的能力,生活技能同样关键。遗憾的是,测量日常生活技能的方法往往模糊、不精确、带有主观性,研究者正努力改进这些评估工具。
智力障碍的患病率估计在人口的百分之一到百分之三之间,较新的证据表明实际比例可能接近百分之一点五。智力障碍传统上分为四个等级:轻度、中度、重度和极重度。
大多数人对智力障碍的印象是严重智力低下,需要住在机构中,外表看起来也明显不同。但这只是少数极端案例。实际上,百分之八十五的智力障碍者属于轻度范畴,他们中的许多人外表和行为都与普通人无异。
轻度智力障碍的儿童往往要到上学几年后才会被发现。在学校之外,他们的表现可能完全正常。更值得注意的是,这些人中有多达三分之二在成年后、离开学校系统时,成功摆脱了智力障碍的标签。相当一部分人能够自食其力,融入社会,有些人甚至能够上大学。
智力障碍可由多种生物学因素引起。比如,唐氏综合征患者具有特征性的身体特征(如眼角上挑、四肢短粗、头发稀疏),同时伴有轻度到重度的智力障碍。这种疾病的大多数患者携带一条额外的染色体。苯丙酮尿症是一种代谢性疾病,由于遗传性的酶缺乏导致,如果不及时发现和治疗,会导致智力障碍。脑积水是指头颅内脑脊液过度积聚,破坏脑组织,也会造成智力障碍。
目前已知约有一千种这样的生物学综合征可导致智力障碍,而且每年还在发现新的致病因素。然而,大约百分之三十到五十的病例无法找到明确的生物学原因。
对于找不到生物学原因的病例,一些理论家认为可能存在微妙的、难以检测的生理缺陷。但也有人认为,大多数这类病例由各种不利环境因素造成。支持这一假说的有力证据是:轻度智力障碍者绝大多数来自社会经济地位较低的家庭。在这些家庭中,婚姻不稳定、父母疏于照顾、营养不良、医疗保健不足、教育质量低下等因素交织,可能共同阻碍儿童智力发展。
智商超过平均值两到三个标准差的儿童被视为智力超常或天才。但理论与实践中,关于天才的定义和识别存在很大差异。
专家们一致认为,天赋不应等同于高智商,建议学校不要过度依赖智商测试选拔天才儿童。然而实际操作中,识别工作几乎完全依赖智商分数,很少考虑创造力、领导力或艺术音乐才能。大多数学校将智商分布顶端百分之二到三的儿童视为天才,智商最低标准通常在一百三十左右。不同学区为天才学生提供的项目和服务差异巨大:有的设专门天才班,配备特殊课程和优秀师资;有的只偶尔提供额外阅读材料;还有的根本没有任何特殊安排。

长期以来,天才儿童一直被刻板地描绘成体弱多病、社交笨拙、情绪不稳定的“书呆子”。但实证研究基本上否定了这种看法。最有力的证据来自一项开始于一九二一年的大型纵向研究,研究者们追踪了约一千五百名智商平均为一百五十的儿童,这个项目成为心理学史上持续时间最长的研究。
研究发现,与普通儿童相比,这些天才儿童在身高、体重、力量、身体健康、情绪适应、心理健康和社会成熟度等方面都高于平均水平。进入成年期后,他们作为一个群体,继续表现出优于平均水平的身体健康、情绪稳定和社会满意度。其他研究也发现,高智商儿童样本在社交和情感发展上处于平均或高于平均水平。
然而,一些研究对这个结论提出质疑。有学者认为,极度天才的儿童(智商超过一百八十)与中度天才儿童(智商在一百三十到一百五十之间)非常不同。她的研究表明,极度天才的儿童往往更内向、在社交上更孤立,人际关系和情绪问题的发生率约是普通儿童的两倍。另一线研究关注在创造性成就上达到真正卓越水平的人群,发现他们中精神疾病的发生率也有所升高。因此,天才儿童的心理社会适应情况可能部分取决于天赋程度——中度天才儿童通常适应良好,极度天才者可能面临更多挑战。
早期那项对天才儿童的追踪研究显示,这些人到中年时取得了相当可观的成就:出版九十二本书,获得二百三十五项专利,发表近两千两百篇科学论文。按传统标准,这些天才儿童长大后都很成功。然而,这个群体中没有人做出天才级别的贡献,没有人因开创性工作获得广泛认可。
这个结果并不意外。“天才”这个词实际被用来指代两个截然不同的群体:一个是学校里成绩优异的高智商儿童,另一个是在各自领域做出持久贡献的杰出成年人。有学者指出,这两个群体之间存在相当大鸿沟。
一些研究者认为,这种罕见的卓越成就需要三个因素的交汇:高智力、高创造力和高动机。他强调,高智商本身通常不足以造就真正的伟大。因此,绝大多数被选入天才项目的儿童并不会在成年后取得卓越成就或做出天才般的贡献。
另一个热门话题涉及非凡成就在多大程度上依赖于天生才能,以及在多大程度上依赖于艰苦训练和努力工作。近年来,强调的重点转向了所谓的“苦功理论”——认为卓越成就主要或完全取决于顽强的决心、无休止的枯燥练习以及出色的指导和训练。这个结论基于对杰出科学家、艺术家、作家、音乐家和运动员的研究,这些研究表明,他们比不太成功的同行付出了更多努力,进行了远超常人的刻意练习。
虽然艰苦训练和巨大努力与世界级成就之间的联系令人信服,但有学者指出,在对杰出人物的回顾性分析中,天生能力与痴迷般的努力可能混淆在一起。最刻苦训练的年轻人可能正是那些天赋最高的人,因为他们的努力更容易得到回报。换言之,天生能力可能是培养那种至关重要的专注投入的关键因素。
一些学者提出了精巧的才能发展理论,天生能力和各种支持性环境因素都扮演重要角色。近期研究表明,高质量的训练、巨大的努力和坚持不懈是成就伟大的关键因素,但许多天赋研究专家仍认为,非凡成就还需要罕见的天生才能。
在心理学众多争论中,很少有话题能像智力的遗传问题这样激起强烈情绪。这不仅是学术问题,更涉及教育政策、社会资源分配、甚至人的尊严等根本性议题。
早期智力测试的先驱们大多认为智力主要是遗传的,这种观点在很多人中间延续至今。然而,随着研究深入,答案越来越清楚:遗传和环境都对智力有重要影响。但这个答案远没有结束争论。理论家和研究者仍在激烈辩论:究竟哪个因素更重要?辩论如此激烈,部分原因在于深远的社会政治影响。
相信智力主要由遗传决定的理论家往往不看好为弱势群体提供特殊教育项目的价值。他们的论点是:既然基因命运无法改变,儿童智力就无法通过教育得到显著提升。另一派理论家强烈反对这种观点,指出即使遗传性很强的特质也未必不可改变。这一派倾向于主张应该为补救教育、改善底层社区学校和为贫困学生提供经济援助投入更多资金。
最早注意到智力“家族聚集”现象的是十九世纪末那位英国学者。他观察到成功和才能似乎在家族中代代相传,这个观察本身准确。但家族研究只能告诉我们遗传影响是否可能,不能告诉我们影响是否确定。因为家庭成员不仅共享基因,还共享环境。若高智力(或低智力)在一个家族中持续几代出现,这种一致性既可能反映共享基因的影响,也可能反映共享环境的影响。正因这个问题,研究者必须转向双生子研究和收养研究,才能获得更确切证据。
双生子研究的基本逻辑是:同卵双生子和异卵双生子通常在相似环境条件下成长,但同卵双生子的遗传相似度高于异卵双生子。因此,若同卵双生子在智力上比异卵双生子更相似,这种差异大概是因为遗传相似度更高。
根据一百多项研究的数据汇总,同卵双生子之间智力的平均相关系数为零点八六,非常高的相关,表明同卵双生子的智力往往非常相似。异卵双生子之间的平均相关系数为零点六零,明显较低。
批评者试图寻找漏洞。他们认为,同卵双生子智商更相似,可能是因为父母和他人对待他们的方式更相似。这种环境解释有一定道理,同卵双生子性别总是相同,而性别会影响儿童养育方式。
然而,这种解释在另一类研究面前站不住脚:对因家庭破裂或收养而分开抚养的同卵双生子的研究。虽然在不同环境中长大,这些同卵双生子在智商上仍表现出比一起抚养的异卵双生子更大的相似性(平均相关:零点七二比零点六零)。同卵双生子之间智商相似性的差距在成年期似乎还会扩大,反常地暗示遗传影响随年龄增长而增强。
收养儿童的研究为遗传和环境影响都提供了证据。若被收养儿童在智力上与亲生父母相似(即使并非由亲生父母抚养),这支持遗传假说;若与养父母相似,则支持环境假说。研究确实表明,被收养儿童与亲生父母、养父母都有一定相似性,且与一起抚养的兄弟姐妹比分开抚养的更相似。
专家们对智力的遗传率进行估计。遗传率比率是对一个群体中某种特质变异由遗传差异决定的比例的估计。遗传率可针对任何特质进行估计。例如,身高的遗传率估计约为百分之九十,体重约为百分之八十五。
遗传率可用多种方法估计。考虑到可用的多种方法以及专家们对智商争论所持的强烈观点,智力的遗传率估计存在相当大差异。在高端,一些理论家估计智商的遗传率高达百分之八十,认为智力变异中只有约百分之二十可归因于环境因素。低端估计则认为智力遗传率约为百分之四十,意味百分之六十可归因于环境因素。近年来,专家共识估计徘徊在百分之五十左右。
理解遗传率估计的局限性非常重要。其一,遗传率估计是基于特定群体研究的群体统计量,不能应用于个体。即使智力的遗传率为百分之七十,也不意味每个人的智力有百分之七十是遗传的。其二,特定特质的遗传率可能因群体而异,取决于各种因素。其三,没有任何单一固定数值代表智商或其他任何东西的真正、恒定遗传率。
遗传无疑影响智力,但大量证据表明成长经历也会影响心智能力。完全无血缘关系但在同一家庭中抚养的儿童也表现出智商上的显著相似性,这明确表明环境影响智力。
若环境影响智力,在不良条件下成长的儿童应该随年龄增长而经历智商的逐渐下降(因为其他儿童进步更快)。这个累积剥夺假说在几十年前得到检验。研究者研究了被送到人手不足孤儿院的儿童,以及在贫困和与世隔绝的偏远山区长大的儿童,确实发现环境剥夺导致智商分数的预期下降。

相反,从不利环境转移到更有利学习环境的儿童,应从环境改善中受益,智商分数应逐渐提高。这个假说通过研究从弱势家庭或机构环境转移到中上层收养家庭的儿童得到检验。元分析发现,被收养儿童的智商测试成绩明显高于留在机构或弱势家庭中的兄弟姐妹或同龄人。若儿童在被收养前经历严重、长期剥夺,这些提升有时会减少,但总体趋势表明,改善的环境会导致大多数被收养者智商分数提高。这证明智商分数并非一成不变,对环境影响敏感。
最有趣也最令人困惑的证明环境重要性的证据,是智商测试表现在代际之间稳步提高的发现。这一趋势直到相对最近才被广泛认识,因为测试会定期用新的标准化样本重新制定常模,使平均智商始终保持在一百。
研究者注意到,每次重新制定常模时,获得一百分所需的表现水平都会跳升。他收集了来自二十个国家的大量数据,证明自二十世纪三十年代以来,工业化世界各地的智商表现一直在稳步上升。若今天能让你获得平均分一百的表现,在二十世纪三十年代会让你获得约一百二十五的智商分数。
研究智力的专家们在努力解释这一趋势,被称为“弗林效应”。他们唯一基本达成共识的是,弗林效应必须归因于环境因素。现代世界的基因库不可能在一夜之间改变(从进化角度看,七十年不过一瞬间)。
遗传和环境都对智力有显著影响,且涉及复杂、动态的相互作用。遗传禀赋影响人们接触到的经历,环境影响基因倾向实现的程度。许多理论家现在认为,关于遗传或环境哪个更重要的问题应让位于它们如何相互作用来影响智商的问题。
一个有影响力的相互作用模型假设:遗传可能对智力设定某些限制,环境因素决定个体在这些限制内的位置。根据这个观点,遗传为一个人智商设定了无法超越的上限,即使在理想环境下也是如此。遗传也为个体智商设定了下限,尽管极端环境(如被长期隔离)可能将一个人的智商拖到这个界限之下。理论家用反应范围一词来指这些由遗传决定的智商界限。
根据反应范围模型,在有利于智力发展的高质量环境中成长的儿童,应该得分接近其潜在智商范围的顶端。相反,在不太理想环境下成长的儿童,应该在其反应范围内得分较低。反应范围概念可以解释为什么高智商儿童有时来自贫困环境,也可以解释为什么低智商儿童有时来自很好的环境。它在不否定环境明显起作用的情况下解释这些表面悖论。
科学家希望通过识别影响一般心智能力的特定基因,更精确地理解遗传和环境如何相互作用地影响智力。分子遗传学的进展,包括人类基因组的测绘,使研究者能搜索与智力测量相关的个别基因。然而,到目前为止,这一新研究方向的进展微乎其微。
问题在于,智力可能受数百个特定基因影响,而每个基因可能只有很小影响,用当前技术极难检测。最近研究中,发现的基因与智力之间最强联系,每个都与不到百分之零点五的智力变异相关。尽管研究者希望随着分子遗传学技术变强大而取得突破,但目前进展前景相当暗淡。
研究发现不同族裔群体的平均智商存在差异,典型差距约为十到十五分,具体取决于测试群体和使用的智商量表。值得注意的是,近几十年来这些差距已经有所缩小。
关于这些群体差异的存在,争议相对较小。真正的争议在于原因:智力的群体差异主要归因于遗传还是环境影响?这场辩论仍在激烈继续。
一九六九年,一位学者发表文章,认为族群间平均智商差异主要是遗传的结果,引发激烈论战。他的论证基于对智力遗传率约为百分之八十的分析。本质上,他主张:其一,智力主要源于遗传;其二,因此遗传因素“强烈暗示”为族裔智力差异的原因。
二十五年后,学者们出版《钟形曲线》一书,重新点燃同样争议。他们认为族裔和文化智力差异是实质性的,不易通过针对弱势群体的教育项目减少,并且至少部分是遗传起源。书中隐含信息是,弱势群体无法逃避遗传宿命。甚至二零一零年,基于对统计证据的回顾,研究者仍认为遗传因素占族群间平均智商差距的大部分。
这些分析和结论引发了许多冗长而详尽的反驳。批评者认为,关于族裔智商差异的遗传率解释有各种缺陷和弱点。例如,最近的研究表明,智力的遗传率在来自较低社会经济阶层的样本中可能明显低于来自较高社会经济阶层的样本。然而,智力的遗传率估计主要基于从白人、中产阶级、北美和欧洲人口中抽取的样本。因此,将这些遗传率估计应用于其他文化群体的有效性存在疑问。
而且,即使智商遗传率非常高,群体差异也不必然主要由遗传决定。有学者提出了一个类比来说明这种推理的逻辑谬误:
用两个袋子各装一些不同基因品种的种子,确保每种品种在两个袋子中比例相同。然后将一袋种子种在肥沃田地,另一袋种在贫瘠田地。我们会观察到,在同一田地内,个别植株高度有相当大变异,这种变异主要由遗传因素(种子差异)决定。但我们还会观察到,肥沃田地的平均植株高度大于贫瘠田地。这种差异完全由环境因素(土壤)决定。智商也是如此:各人类群体平均智商的差异可能完全由环境差异造成,即使在每个群体内所有变异都由遗传差异造成。
这个类比说明,即使群体内智商差异高度遗传,群体间平均智商差异仍可能完全由环境因素造成。批评者几十年来一直依赖这个类比来论证群体间智商差异不一定反映遗传差异,因为缺乏相关数据。然而,弗林效应的发现提供了直接证据。代际智商得分增长表明,群体间平均智商差异可以是环境起源的,即使智力高度遗传。
现有证据不允许完全排除族裔和文化智力差异部分是遗传的可能性。仅因许多人觉得这个假说令人反感,就不应不加研究地驳回。然而,对于群体智力差距,有几种替代解释似乎更合理。
许多社会科学家认为,某些群体学生的智商分数偏低是因为这些儿童往往在不利环境中成长——这在学校和智商测试中都造成劣势。
虽然群体内生活环境差异很大,但平均而言,不同社会经济阶层的儿童在截然不同的环境中成长。许多弱势群体长期遭受经济歧视,在底层社会阶级中占比过高。底层成长带有许多不利于儿童智力潜能发展的因素。
与中上层阶级相比,底层儿童更可能来自大家庭和单亲家庭,限制了他们获得的父母关注。底层儿童接触书籍较少,学习用品匮乏,缺乏安静的学习空间,获得的父母辅导也少。他们在语言发展方面的榜样较差,在智力追求上获得的鼓励较少,就读学校质量较差、资金不足、人员短缺。许多儿童在治安混乱的社区长大,街头生存智慧比学校智慧更重要。底层儿童还更可能遭受营养不良或接触环境毒素,任何一种情况都可能干扰智力发展。
鉴于这些劣势,底层儿童平均智商分数比中上层家庭儿童低约十五分。即使只研究同一族裔也是如此。社会阶层对测试分数有显著影响,许多研究者认为族裔智力差异实际是伪装的社会阶级差异。
社会经济劣势可能是某些群体智商测试表现不佳的主要因素,但有理论家认为还有其他因素在起作用。研究发现,对被污名化群体智力能力的负面刻板印象会在课堂上造成脆弱感,这些刻板印象威胁的感觉可能削弱群体成员在测试及其他学业成就测量上的表现。
对被污名化群体的负面刻板印象广为人知,这些群体成员敏锐地意识到关于他们智力的负面刻板印象。当某个群体成员在测试中表现不佳时,必须面对一个令人不安的可能性:其他人会将失败归因于群体劣势。同样,当女性进入数学、工程等学术领域时,若刻板印象暗示她们不如男性,也会面临刻板印象威胁。
刻板印象威胁至少通过两种方式导致学业成就不足。其一,它可能削弱学生对学业的情感投入。许多学生可能与学校“脱离认同”,将学业追求作为自我价值的来源一笔勾销,学业动机下降,表现受损。其二,标准化测试对被污名化群体成员可能特别引发焦虑,因为测试的重要性使刻板印象脆弱性特别显著。这种焦虑通过暂时扰乱认知功能来损害测试表现。
研究表明,提醒负面刻板印象会导致人们耗费宝贵心理资源来压制负面想法和监控失败迹象。这些干扰劫持了对复杂认知测试成功至关重要的认知资源——工作记忆,工作记忆容量减少削弱了测试表现。
刻板印象威胁概念有助于澄清智商分数群体差异这一争议问题。社会经济劣势对群体智力差距做出实质性贡献,但这一因素本身无法完全解释差距。开创性研究为理解群体智力差异提供了全新解释工具。
总体而言,各种替代解释对遗传解释提出严重挑战。遗传解释充其量显得薄弱,最坏的情况是令人怀疑的种族主义。
智力测试经历了动荡时期,变革正在发生。以下是智力研究领域的几个主要新趋势。
研究者探索智力变异与大脑特征之间的关系。早期研究使用头围作为脑容量指标,发现头围与智商存在正相关,但相关系数很小(平均约零点一五)。头围可能只是脑容量的粗糙指标。这条研究线索本可能就此沉寂,但精密脑成像技术的发明使其重获新生。
自二十世纪九十年代以来,大量研究使用核磁共振成像技术测量整体脑容量与智商分数的相关性,得到平均相关系数约为零点三五。更大的大脑确实能预测更高的智力。
许多研究者怀疑,大脑尺寸与智力的关联可能反映的是大脑特定区域的增大,或某些类型脑组织的增长,而非整体增大。基于对三十七项脑成像研究的回顾,研究者认为智力依赖于大脑中一系列关键区域的相互作用,包括前额叶皮层、布洛卡区和韦尼克区、体感联合皮层、视觉联合皮层以及前扣带回。虽然证据复杂,但确实发现这些特定区域体积与智力测量之间存在相关性。
另一角度的研究分析智力与个体大脑中灰质或白质数量的关系。灰质数量反映神经元及其树突的密度,预示信息处理能力。白质数量反映大脑中轴突的数量及其髓鞘化程度,预示神经元通信效率。研究结果表明,较高智力分数与灰质和白质体积增加都相关,但与灰质的关联稍强。
这些发现的一个明显含义,被强调遗传对智力影响的人热切接受:基因遗传使某些人大脑比其他人更大,更大脑容量促进更高智力。然而,解读相关数据时必须谨慎。研究已证明,丰富环境可以在实验室大鼠中产生更密集神经网络和更重大脑。因此,因果关系也可能朝相反方向发展——更高智力促进更大脑容量,就像举重促进更大肌肉一样。
智力生物学相关性研究还发现了另一个有趣现象:儿童时期测量的智商分数与几十年后的寿命相关。长期追踪研究发现,儿童时期智商比平均水平低一个标准差的人,几十年后的存活率明显低于智商平均或以上者。
多项研究得出同样结论:更聪明的人活得更长。较高智商与降低的各种健康风险相关,包括心血管疾病、癌症和外部原因(伤害、中毒、暴力等)的死亡率。研究还发现,较高智商与降低的慢性肺病、心脏病、高血压、糖尿病和关节炎风险相关。
研究者对这一现象提出几种解释。其一,良好基因可能同时促进较高智力和强健健康。其二,健康自我照护是复杂的终身任务,更聪明的人准备得更好——更可能避免有害健康的习惯(如吸烟和暴饮暴食),积极维护健康(如锻炼),更有效利用医疗保健(如知道何时就医)。其三,智力促进事业成功,较高社会地位降低死亡率。社会经济地位较高的人往往从事压力较小、事故风险较低的工作,接触毒素和病原体机会较少,拥有更好健康保险和医疗资源。这些解释可能都对智商与寿命的关联有所贡献。
心理学家越来越多地从认知角度研究智力。认知视角关注人们如何运用智力,特别是智力行为背后的信息处理策略。
一些理论家提出,成功智力具有三个方面:分析智力、创造智力和实践智力。分析智力涉及抽象推理、评估和判断,是大多数学业任务的关键,也是传统智商测试评估的内容。创造智力涉及产生新想法和创造性应对新问题的能力。实践智力涉及有效应对日常生活问题的能力,如工作或家庭中的各种情况。实践智力的一大部分是获得默会知识——在特定环境中有效工作所需但未被明确教授甚至未被言说的知识。
研究数据表明,成功智力的三个方面都可被可靠测量,且相对独立。对所有三个智力方面的评估可改善对现实世界智力行为的预测。研究结果表明,基于这一理论的测量可作为传统测试的补充,增强对学业成就的预测。
批评者怀疑,这种测量是否能比传统智商测试更好地预测有意义的结果。这是应由未来研究解决的实证问题。无论如何,主张更广泛、更扩展的智力概念已成为重要声音。
近年来,许多理论家得出结论:传统智商测试的关注点过于狭窄。最著名的倡导者认为,智商测试过分强调言语和数学技能,忽略了其他重要技能。他提出存在许多相对独立的人类智力:
为建立这个多元智力列表,研究者审查了正常人、脑损伤患者和特殊人群(如天才和特异功能者)的认知能力证据。人类表现出八种智力:逻辑数学智力、语言智力、音乐智力、空间智力、身体运动智力、人际智力、内省智力和自然观察智力。这些智力包括许多传统智商测试未评估的才能。研究这些不同智力的独立性发现,人们往往表现出强、中、弱能力的混合,与各种智力类型相互独立的观点一致。
这一理论很受欢迎,引起了许多人共鸣,对世界各地教育工作者的态度和信念产生巨大影响。理论综合神经心理学、发展心理学、认知心理学等领域研究,得出关于人类能力结构的有趣推测,还提出了关于哪些能力应被纳入智力范畴的发人深省问题。
批评者认为,对智力一词的使用过于宽泛,涵盖几乎所有有价值的人类能力,使这个术语几乎毫无意义。他们质疑将音乐能力和运动协调等才能重新标记为智力形式是否有任何优势。还有人指出,理论尚未产生太多关于测量八种智力中个体差异的预测价值研究,因为这需要开发测试,但理论提出者厌恶传统测试。这使得难以预测理论走向,因为研究对理论演变至关重要。
三个主题贯穿全文:文化背景对行为的深刻影响、心理学在社会历史背景中的演变、以及遗传与环境对行为的共同塑造。
心理测试主要是西方文化产物,综合智力的概念也带有西方色彩。许多非西方文化对智力本质有着不同看法。即使在西方社会内部,不同族裔在平均智力上的差异也说明文化因素的重要性。这些差异很大程度上源于文化劣势及其他文化相关因素。深入理解行为,必须重视行为展开的文化背景。

用中国古代科举考试的标准评价古希腊哲人,或用西方智商测试评价偏远地区的居民,结果都毫无意义。每种文化都发展出适应其环境和价值观的独特智慧形式。
在当代中国,虽然西方标准化测试被广泛采用,但传统文化对智慧的理解——道德修养、人情世故、辩证思维——仍在日常生活中发挥重要作用。智力不是单一普适的概念,而是多维度、受文化塑造的特质。
没有哪个心理学领域比智力测试更清楚地展现心理学与社会的联系。社会主流态度总是对测试实践和结果解释施加影响。二十世纪上半叶,种族和阶级偏见盛行,人们普遍认为智商测试测量的是天生能力,某些群体成绩差是基因劣势所致。
这些信念虽在心理学界内部受到挑战,但其广泛接受反映了当时的社会价值观。历史上不乏令人不安的例子。二十世纪初,大量移民在入境时接受智力测试,测试者声称某些族裔群体智力低下。这类结论今天看来荒谬,当时却被许多“科学家”认真对待。
历史提醒我们:科学并非在真空中进行,科学家也非不受社会影响的纯粹理性存在。研究问题、研究方法、数据解释,都不可避免地受时代和文化影响。认识到这一点,才能更谨慎对待研究结论,警惕科学被滥用为偏见和歧视辩护。
讽刺的是,智商测试起初是为促进公平——用客观测量替代主观判断,避免教师或雇主偏见。正确使用时,它们确实能提供相对客观的心智能力测量。问题不在测试本身,而在人们如何解读和使用结果。
人类智力由遗传与环境复杂互动塑造。这从两个方面得到印证。
其一,双生子研究、收养研究、遗传率估计等研究方法虽各有优势和局限,综合起来却描绘出清晰图景:智力既受基因影响,也受环境塑造。
其二,先天与后天的争论牵涉重大利害关系。持某种观点的学者面对的不仅是学术辩论,还有激烈社会反应——演讲被抗议者打断,标语写着极端口号。关于智力遗传的辩论激发着强烈情感。
原因很简单:答案直接关系到教育资源分配、社会机会平等,以及如何看待人与人的差异。若智力主要由基因决定且不可改变,为弱势儿童提供额外教育支持似乎就是徒劳。但若环境发挥重要作用,改善教育条件、消除社会不平等就至关重要。
当前共识是:遗传和环境都重要,且以复杂方式相互作用。基因设定智力发展的可能范围,环境决定一个人最终在这范围内的位置。更重要的是,即使某特质高度遗传,也不意味不可改变。身高高度遗传,但营养改善让现代人平均身高比百年前高出许多。同样,虽然智力有遗传基础,教育、营养、环境刺激都能显著影响其发展。
弗林效应就是最好证明。短短几十年内,世界各地智商测试成绩稳步上升,这显然不可能是基因变化的结果,只能是环境因素作用的体现。这发现给了我们希望:通过改善教育、减少贫困、消除歧视,确实能帮助更多人发挥智力潜能。
心理测试应用广泛,但有一些核心观点需要我们深刻把握:
智商分数仅能部分反映个体能力。它所测量的主要是学业相关的心智能力,未能涵盖社交智慧、实践能力、创造力等同样重要的素质。智商并非与生俱来的“判决书”,而是会受到教育、成长经历、动机等多种因素的影响,具有一定可塑性。不同群体之间的智商差异,更多反映了社会环境和资源分配的不平等,而不应被误用来为歧视和偏见提供“科学”依据。
每个人都有各自独特的天赋和潜能。智商测试可以提供一定参考,但绝不应成为评价一个人价值的唯一标准。人的尊严和价值远远超出任何测试分数的范畴。
对智力的科学探索仍在继续,脑科学、遗传学、认知科学等领域不断深化我们对“智力”的理解。然而无论科学如何进步,有些底线不会改变:每个人都应被尊重,都有权利发展自我潜力。这既是科学的谦逊,也是社会公正与人性的题中应有之义。