
听觉世界远比人们通常以为的复杂。在嘈杂的春运火车站里辨认广播中的车次,在家宴的喧闹声中听清对面长辈的话语,在音乐厅里跟随二胡的旋律起伏——这些看似平常的听觉体验,背后隐藏着人类认知系统极为精密的运作机制。
听觉信息始终在时间中展开,这意味着认知系统必须具备某种临时记忆机制,用来保存那些转瞬即逝的声音信息,等待后续处理过程完成分析。正是这种短暂的“回声”记忆,使听者得以在一段声音结束之后,仍能回头选取其中的某些部分加以关注。
现代认知心理学的研究表明,听觉处理可以分为两个层次。初步分析由相对被动的前注意阶段承担,为更主动的合成过程提供素材与方向。这种分层引出了关于记忆与注意力的一系列假说:每个处理层次都可能拥有自己专属的存储介质,而将合成过程与“付出注意”这一行为联系起来,在理论上也具有相当的合理性。
声音本质上是时间性的事件。每一个音节、每一个词语,都需要在时间轴上展开才能成形,单独某一毫秒的声音无法传达任何有意义的信息。如果声音信息在到达之后立刻被抛弃,听觉认知几乎就无法实现。因此,认知系统中必然存在某种“缓冲器”,一种能够短暂保存声音信息的临时存储机制。
以汉语声调为例。普通话中“māo”与“máo”的区别,不在于某一个瞬间的音高,而在于音高随时间的变化走势。如果大脑只能处理“当前这一时刻”的声音,根本无法感知声调的走向,自然也就无法区分两个调值不同的字。更何况完整的句子,其中每一个字的理解都需要依赖前后文的积累。
语言的认知单位在时间长度上差异很大。较短的音节只持续几十毫秒,而一个完整的短语则可能延续数秒。但无论多短的语音单位,其区别性特征都需要一定时间才能形成,这正是回声记忆存在的根本原因。
与视觉短时存储类似,这种转瞬即逝的听觉记忆也需要一个专属名称。研究者将其称为“回声记忆”,历史上也有“刺激痕迹”或“原始存储”等说法,但这些术语容易引起误解。回声记忆并不是对声音的原始录音,信息在到达这一处理阶段之前,耳蜗的神经机制早已对其进行了物理层面的转换与初步编码。
回声记忆在哲学上对应古人所说的“现前记忆”,即那个我们体验为“正在发生”而非“已经过去”的短暂时间窗口。感知一段完整语音,意味着这段语音必须整体落在这个窗口之内。如果一句话的开头显得“已经过去”,而结尾才“正在发生”,那么听者感知到的就不是一个整体,而是两个割裂的片段了。

回声记忆能维持多长时间,是研究者长期关注的核心问题。从直觉上看,回声记忆不需要持续太久:一旦声音信息被成功分割并组织完毕,就可以转入更稳定的存储介质,“回声”本身也就完成了使命。但这并不意味着回声记忆会在每个片段结束后立即消散。
汉语声调提供了一个直观的说明。要分辨“你能来吗”与“你能来”之间的语气差异,当最后一个字发出时,之前“你能”部分的声学信息必须仍然留存于某种介质中,才能形成完整的调型感知。如果回声在前一个音节结束后就消失了,这种感知根本无从实现。同样的道理也适用于外语发音的纠正——当教师说“不是这个音,是那个音”,学生必须同时在记忆中保有刚才自己发出的错误音,才能与示范音进行对比,从而理解差异所在。
音乐欣赏同样依赖这一机制。聆听一段旋律时,当前音符的意义往往取决于它与之前音符的关系。如果每个音符一落下就被遗忘,旋律就只剩下彼此孤立的音点,完全谈不上乐句的起伏与情感的流动。这说明回声记忆的持续时间必须足够跨越多个认知单位。
分析-综合机制通常依赖“语境”的引导,特别是已经识别出的词语所构成的上下文。然而在自然语流中,理解某一片段所需的语境有时会出现在它之后,这意味着分割过程可以适当延迟,或者在随后的信息到来之后加以修正。回声记忆的持续性正是这种“回顾性分析”的物质基础。
如何在实验室中精确测量这种转瞬即逝的记忆?研究者设计了若干实验方案,从不同角度对回声记忆的持续时间进行估算,三项具有代表性的研究给出了各自的答案。
中科院心理研究所的研究团队在上世纪60年代进行了一项经典实验。他们制备了重复出现的白噪音片段,每段结尾与下一次出现的开头平滑融合,连续播放。实验的核心问题是:当片段循环重复时,听者是否能察觉到规律性?结果表明,对于不到一秒的短片段,听者经常能感受到一种规律性的“扑扑”或“嘶嘶”声;但当循环周期延长,这种重复感就逐渐消失了。在自然聆听状态下,能被识别为重复的最长片段大约是一秒钟。
北师大心理学院则采用了另一种方法,称为“刺激后提示法”。参与者需要在嘈杂环境中辨认说出的词语,事先知道目标词来自一个较大的词汇库。每次声音结束后,参与者立即看到一组备选词汇,任务是从中选出刚才听到的那个词。提示出现的时间越晚,识别准确率就越低——但大约到四秒之后,准确率趋于稳定,不再继续下降,说明四秒左右的信息仍可通过某种方式被利用。
清华大学心理系则设计了一个更贴近日常情境的实验。参与者被安排阅读小说两个小时,期间不定时响起音量适中的提示音。每次提示音响起后不久,阅读灯熄灭,研究者询问参与者是否刚才听到了声音。这一设计的逻辑是:如果专注阅读能将注意力完全抽离,那么参与者对提示音的判断就只能依赖回声记忆的残留。随着提示音响起与询问之间的时间间隔延长,准确率逐渐下降,清华研究团队据此估算回声记忆在刺激发生后最长可保存约十秒。
上述三项研究得出的时间估计差异相当大,从一秒到十秒不等。这并不意味着结果互相矛盾,而是反映了实验任务本身的难度对测量结果的影响。任务越简单,记忆中越微弱的信息也足以完成判断;任务越复杂,就需要更清晰的回声痕迹才能正确响应。测量方法不同,所揭示的记忆持续时间自然也有所差异。
以下是三项实验的主要参数对比:
回声记忆不只在语音感知中发挥作用,在音乐节奏的感知过程中同样不可或缺。当一串鼓点以不均等的间隔持续敲击时,人们几乎总是自动将其组织成若干成对的单元:短间隔的相邻两拍构成一组,长间隔则将各组分隔开来。这种自发的节奏分组,本质上是一种认知组织过程。
这一过程显然需要回声记忆的支撑。节奏样式只有在数个敲击相继出现之后才能被感知,大脑必须先在“未分割”的状态下完整保存这些声音及其间隔,才能从中提取节奏规律。如果每个鼓点一落下便消失,整体的节奏结构就无从建立。
中央音乐学院的研究人员在实验中发现,当鼓点之间的间隔超过约两秒时,节奏感会明显减弱甚至消失。这一临界值与其他实验估算的回声记忆时间范围高度吻合,为上述推论提供了实证支持。
节奏感知与语音感知之间存在有趣的相似之处。两者都依赖对时序信息的短暂保存,都需要在若干单元积累之后才能形成有意义的整体感知,也都表现出一个随时间衰减的记忆窗口。研究者还注意到,人们在聆听音乐时往往会不自觉地打拍子或随节奏摆动,这种身体反应提示了节奏感知可能具有运动层面的表征,但音乐节奏结构的复杂性已经远超单纯的运动模拟所能解释的范围。

如果说回声记忆揭示了听觉系统如何“留住”声音,那么选择性听觉则展示了听觉系统如何在众多声源中“锁定”一个。研究选择性听觉最经典的实验范式,是由中科院声学所在上世纪50年代引入的“追随法”。
追随法的基本操作是:参与者一边听录音,一边即时大声重复所听到的内容,尽量紧跟说话者的节奏,不留空白。在语速适中的情况下,这项任务虽然需要一定练习,但并不难以完成,出错率相当低。
在追随实验的进阶版本中,参与者通过耳机接收两路信息——左耳播放一段连贯的文本,右耳同时播放另一段完全不同的内容。任务是追随左耳的内容,忽略右耳的信息。这个场景与大学英语课堂的情形颇为相似:戴着耳机听听力材料的同时,旁边的同学在聊天,只要专注于耳机里的内容,大多数人能逐渐屏蔽周围的对话,尽管两种声音在物理上同样清晰。令研究者印象深刻的是,注意力确实可以相当有效地“锁定”在一个信息源上,右耳的内容几乎被完全屏蔽。
早期研究者认为,选择性听觉的关键是声音来自哪只耳朵。但后续研究证明,真正起作用的是参与者所感知到的声源空间位置,而不是解剖意义上的左耳或右耳。用扬声器播放两组信息时,只要两者的空间位置相差十至二十度,选择性追随依然能够实现。此外,音色差异也同样能够作为区分两路信息的线索,说明空间定位并非选择的唯一依据。
追随实验还带出了一个同样重要的问题:那些被“忽略”的信息,究竟被大脑处理到了什么程度?研究发现,未被追随的信息并非真的被完全抛弃。当右耳的声音突然从正常语音变为400赫兹的纯音,或从男声变为女声时,即使参与者正专注于追随左耳,也几乎都能察觉到这种变化。这说明声音的基本物理特征——音调高低、说话者性别——仍在某种程度上被大脑持续监测着。
更引人关注的是,如果右耳播放的内容与左耳被追随的内容完全相同,几乎所有参与者都能注意到这种一致性,哪怕右耳的信息比左耳稍晚几秒出现。这个发现意义深远:如果早先的信息没有被暂时存储,就不可能存在“前后一致”的感知。
华东师大心理学系对这一现象进行了系统研究,目的是找出识别一致性的时间临界点。参与者事先不知道两路信息可能相同,通过逐渐缩短两路信息之间的时间差,研究者确定了每个人开始察觉一致性的时间节点。
当被追随的信息“领先”时,参与者察觉一致性所需的平均时间为4.5秒;当未被追随的信息“领先”时,平均只需1.4秒。这一差异反映了两种不同性质的记忆机制:未经处理的回声存储衰减较快,约为一到两秒;而经过主动分析的信息则能维持更长时间,4.5秒大约对应12个词语,接近此类材料的记忆广度上限。
在一个双语实验的变体中,研究人员将被追随内容的翻译播放给未被注意的那只耳朵。出人意料的是,一些双语参与者居然察觉到了两者之间的语义关联。这说明未被注意的信息在某些条件下不仅可以被识别音调,甚至可能触及语义层面的处理,尽管这种处理远比主动注意时更为粗浅。

选择性听觉的实验结果,自然让人联想到“过滤器”的比喻——注意力如同一道阀门,只让来自特定方向或通道的信号通过,其余则被拒之门外。北京大学心理系在上世纪60年代前后建立了一套以此为核心的认知理论,将注意力、记忆、学习等现象纳入信息论的框架加以解释。
这套理论的核心主张是:认知系统的信息处理容量有限,为避免过载,必须设立过滤机制。假想的过滤器可以被调节到不同的“通道”,包括感觉器官的来源、声音的空间方向、说话者的音色等,只有来自目标通道的信息才能通过,进入后续的深度处理。
用心脏来做一个对比:我们可以说心脏每次搏动只能泵出约100毫升血液,容量远不及消防水泵,这在技术上没有错,但仅凭这一点无法帮助我们理解心脏的生理结构与血流动力学原理。过滤器理论在认知科学中扮演的角色与此类似——它描述了某种限制的存在,却没有真正揭示限制背后的机制。
过滤器理论假设,假想的过滤器能被调节到许多“通道”中的任意一个,只让调谐通道的信息通过,可能的通道包括感觉器官、听觉空间方向、特定音色等。只有通过过滤器的信息才能影响人的反应或被长期记住,声音质量和位置等特征在过滤阶段被检测,而词汇本身只在之后的“有限容量决策通道”中才能被识别。
然而,这套理论很快遇到了难以解释的现象。中山大学心理系的研究者发现:参与者在追随一只耳朵的内容时,如果另一只耳朵突然出现了他自己的名字,他往往会立刻察觉,尽管其他内容完全没有进入意识。姓名是有意义的语言单位,而非单纯的声学特征,纯粹的物理过滤机制无法解释这一现象。
华东师大在更严格控制的条件下重复了这类研究。实验中,参与者追随左耳的散文段落,忽略右耳。到达某个时间点,两只耳朵的材料突然对换——原本在右耳的段落移到左耳,原本在左耳的段落移到右耳。两路材料的对换情况可以用下表说明:
来自“错误”耳朵的若干词语(延续了之前被追随段落的语义)频繁出现在参与者的跟读反应中,说明语义期待能够在一定程度上压制过空间定位的过滤效果。
如果被拒绝的信息中的姓名、语义相关词汇和相同含义都能影响参与者的反应,那说明这些信息在某种程度上仍然得到了处理。这迫使一些研究者提出,所有输入都在某种程度上被充分分析,“过滤”或“选择”只发生在分析之后,而非之前。但这个修正方案同样无法令人满意——如果所有信息都被分析,为什么被拒绝的信息又如此罕见地产生影响?
1960年前后,华东师大的研究团队提出了一个更为精细的修正方案,并逐渐赢得了包括北大心理系在内的广泛认可。他们认为,注意力的作用不是“关闭”某个通道,而是“衰减”来自非目标通道的信号。被衰减的信号虽然变弱,但并未消失,当条件合适时仍有可能被察觉。
三项关于姓名感知的实验为这套理论提供了支撑。第一项来自中山大学的发现,即追随实验中自己名字的“穿透”现象,已在上文提及。第二项实验由上海交大心理系完成。参与者在熟睡状态下,由脑电图确认处于稳定睡眠阶段后,研究者播放一组录制的名字,其中包括参与者自己的名字和另一个预先指定的名字。睡前告知参与者,听到这两个关键名字时要握拳。结果显示,两个关键名字引发握拳反应的频率远高于无关名字,自己的名字引发的反应最为稳定,即便没有出现明显的握拳动作,脑电图也常常记录到特征性的“K-复合波”。
第三项实验由华中师大心理系在1961年完成,将自己的名字置于嘈杂的背景噪音中进行辨认测试。参与者识别自己名字的准确率达到77%,而在相同信噪比条件下,辨认陌生名字的准确率只有50%左右。
通过将三项实验的数据转换为统一的统计指标,研究者发现三组结果高度吻合。睡眠只是降低了外部刺激的感知强度,自己的名字因为具有较低的识别阈值,得以在更微弱的信号水平上被捕获。同理,在追随实验中,未被注意的通道并未被“关闭”,而只是经历了某种程度的衰减。
有了衰减的概念,就可以引入阈值调节机制来解释整个选择系统的运作。识别词汇的过程可以理解为一个分层级的检测系统:每个词语或语言单位对应一个识别阈值,当输入信号的强度超过该阈值时,该词语被识别;低于阈值,则被忽略。
某些词语的识别阈值天然较低,无需完整的信号强度就能触发,自己的名字就是典型。其他词语则可以通过语境的预激活来临时降低阈值——当上下文使某个词的出现变得高度可预期时,识别它所需的信号强度就会相应减少。被衰减的未注意信息,正是通过这种方式在特定条件下得以“穿透”注意的屏障。
这一机制与中科院神经所提出的“神经元集合体”概念相互印证。该概念认为,相互连接的神经元群能够短暂地协同活动,代表特定的认知元素。当某个神经元集合体被前一个集合体、感觉事件或两者共同激活时,就形成了注意的生理基础,这与阈值调节机制中的“预激活”在功能上是等价的。
衰减理论在逻辑上比“全或无”的过滤器模型更为灵活,在解释自己名字的穿透效应时也颇为有力。但当我们仔细审视日常的听觉体验时,就会发现这套理论存在一个根本性的困难:在嘈杂的环境中,被忽略的声音并不显得更微弱。
在热闹的婚宴上专注与身边亲友交谈时,周围其他桌子的笑声和议论并不因为被忽略就变得更轻——它们在主观上依然响亮,只是变得“无意义”了。生动性与强度是两个不同的维度,衰减理论将注意力的作用等同于响度的降低,在这一点上混淆了两者的区别。早期心理学家早就注意到,当一个人屏息凝神地去捕捉某个极微弱的声音时,声音的主观生动性反而是最高的,尽管它的强度接近感知下限。
在追随实验中,研究者从未系统地要求参与者判断未注意耳朵所听到内容的响度。按照衰减理论的预测,这种判断应当是可行的,并且被追随与未被追随的信息之间应当呈现出明显的响度差异。然而从实际的参与者报告来看,两者的响度感知并无显著不同,这与衰减理论的预期并不相符。
此外还有一个逻辑上的困难:选择行为本身是在注意力分配之前发生的,还是注意力分配的结果?如果是后者,那么在决定“注意哪个信息源”之前,系统就已经必须对两路信息都进行了某种程度的处理,才能决定哪一路值得被衰减、哪一路应当被保留。这意味着“衰减”可能并不是注意的原因,而是注意的结果。

如果注意力不是通过衰减来运作,那它究竟是什么?现有研究提示,注意力本质上是一种主动的“构造”过程。在语音感知中,听者不是被动地接收声音,而是积极地产生内在的语音序列,与传入的声音信号进行匹配与对照。
根据这一假设,“追随”某个信息源,意味着对该信息源的内容不断进行内在构造,使每一个输入片段都被主动地整合进一个连贯的语义序列之中。未被注意的信息源则缺少这种主动的分析-综合,只经历了前注意阶段的被动处理。这一阶段可以建立基本的空间定位,感知粗略的声学轮廓,捕捉自己名字这类具有极低识别阈值的词语,但无法形成对语义内容的系统理解。
构造性注意理论与早期提出的视觉感知理论具有良好的一致性,并且在解释大多数选择性听觉现象时几乎没有困难。由于分析-综合通常由前注意提取的语境线索控制,我们可以理解为什么语境有时能够压制空间定位的引导,使参与者追随来自“错误”耳朵的词语。未注意的语音没有被系统地分割,它只存储在回声记忆中,并在回声消散的一到两秒内保持可用。
这也正是为什么我们在聚精会神时能够屏蔽周围的大多数对话,却仍然对某些特殊词语保持敏感:自己的名字无需主动构造就能触发识别,而陌生话题的内容则因缺少主动构造而无法进入有意识的感知。
睡眠状态为研究听觉注意提供了一个特殊的窗口。在深度睡眠中,意识几乎完全撤退,但某些声音仍然能够引发反应——最典型的是婴儿的哭声、火灾警报,以及自己的名字。这种选择性反应如何用认知理论来解释?
构造性注意理论提供了一个分阶段的框架:
在非快速眼动睡眠阶段,主动的分析-综合过程处于休眠状态,只有前注意机制持续运作。这一阶段只能捕捉识别阈值极低的声音,如自己的名字或具有生物学警觉意义的声音,捕捉之后往往直接触发醒觉或简单的肢体反应。
这些前注意机制的激活所能带来的行为,仅限于较简单的形式——身体翻动、握拳、醒来。由于醒觉过程本身耗时,有时甚至超过回声记忆的持续时间,睡眠者可能在醒来之后完全不知道是什么声音唤醒了自己。
在快速眼动睡眠阶段,大脑活动与清醒状态相近,主动的分析-综合过程可能重新启动。此时听者甚至能够理解完整的句子,但这些信息往往不会转化为可见的行为,而是被纳入正在进行的梦境中。
这一框架能够解释一个看似矛盾的现象:快速眼动睡眠阶段的外部刺激反应阈值反而高于深度睡眠阶段。这并非因为快速眼动睡眠中更难被唤醒,而是因为梦境中的合成过程正在“消耗”注意资源,外部刺激被纳入梦境而未触发行为反应。
构造性注意理论的另一个重要推论,是对“沉浸于自己思绪”这一常见体验的解释。当一个人深陷于内在思考,旁边说了什么都没有“听进去”——这对过滤器理论和衰减理论都是一个难题,因为内在语音的响度显然不高于外部声音。
在构造性注意理论的框架下,这一现象有了自然的解释:内在语音本身就是合成过程的产物。当分析-综合机制被内在的记忆与思维序列所引导,产生出连续的内在语音时,同样的合成机制就无法同时处理外部的声音信息,后者因此只接受前注意阶段的粗略处理,无法进入有意识的感知。
深陷思绪的人与做梦者在某种程度上处于类似状态,而呼唤他们名字这一动作往往都能奏效。这是因为自己的名字识别阈值极低,即便在前注意阶段也可以被检测到,从而中断当前的内在合成过程,将注意力重新引向外部信息源。
内在语音是思维的辅助形式,而非思维本身。当思维以非言语的方式进行时——如视觉-空间性质的想象——它无法控制听觉注意,因此此时的听觉系统对外部干扰更为脆弱。相反,进行复杂的言语思维时,我们反而更不容易被环境噪音打断,因为主动的言语合成过程已经占据了听觉注意的通道。

前注意分析的结果是否会在记忆中留下痕迹?这是理论的重要检验之一。如果“未被注意”就意味着“从未被真正处理”,那么前注意信息应该不会在记忆中留下任何可测量的痕迹。
已有的实验结果基本支持这一推断。在追随实验中,参与者事后几乎无法回忆出另一只耳朵播放的内容,即便研究者明确要求他们尝试,结果也与随机猜测无异。这一发现与日常经验相符:在咖啡厅专心与朋友交谈时,周围桌子的话题内容通常无法在事后被回忆起来,尽管这些声音在物理上同样进入了耳朵。
也有研究者尝试证明前注意信息对行为存在潜意识的影响,但这些研究的结果往往难以复现,且在方法上存在争议。一个主要的混淆因素是,研究者可能在无意间通过非言语行为向参与者提供了暗示,使其反应并非真正来自未注意信息的影响。此外,参与者在实验情境中可能对某些反应模式更为敏感,而将这种敏感误读为前注意加工的结果。
当然,“未注意的信息不留记忆痕迹”这一结论也不宜过度绝对化。在某些条件下,特别是当未注意的信息具有极强的个人相关性时,仍然存在产生轻微影响的可能。但从目前的证据来看,没有理由认为前注意阶段的处理能够产生与主动注意相当的长期记忆效果。
在早期的语音感知研究中,有一种观点认为理解语音需要在神经或肌肉层面模拟发音动作,即“运动理论”。追随实验在表面上似乎为这一理论提供了支持:追随本来就是一种口头的发音活动,它与“内在发音”的关系显而易见。
但某些听觉现象无法与运动理论相容。人们可以专注聆听自己不会演奏的乐器,可以从交响乐团的整体声响中单独跟随某一把小提琴,可以注意到空调发出的异常嗡嗡声——这些都不涉及任何发音运动的模拟。节奏感知的运动理论提出,听者可以被理解为积极地“跟随”注意声音的节奏,但旋律也可以像节奏一样被跟随,旋律有其内在结构,却没有明显的运动类比,说明听觉合成完全可以在不依赖运动表征的情况下进行。
同声传译提供了最为有力的反证。在外交部或重要国际会议上,同声传译员能够在外语讲话人还未说完时,就几乎同步地将其译为中文。这意味着译员在持续监听、理解外语输入的同时,自己的发音系统被占用于产生完全不同的中文输出。
同声传译清楚地表明,听觉理解与发音模拟是两个可以分离的过程。运动模仿既不是理解的必要条件,也不是注意的充分条件。听觉合成可以在完全抽象的层面上进行,处理旋律的结构、话语的语义、节奏的模式,而无需借助任何具体的运动表征。
听觉认知的分析-综合理论为理解人类记忆系统提供了一个统一的视角。在这一框架下,记忆不是单一的容器,而是由功能不同的多个层次构成的系统。
回声记忆是整个系统的第一个层次,它在物理意义上短暂保存声音信息,为后续的主动分析争取时间。这一层次的信息是原始的、未经深度处理的,会随时间迅速衰减。经过分析-综合处理之后,信息进入了第二个层次——更为稳定、更具组织性的记忆形式。这一层次的内容不再是声波的痕迹,而是经过认知加工的语义单元、概念关系和语境意义,可以被有意识地提取,并与其他已有知识建立联系。
听觉认知的研究表明,我们平日里视为理所当然的“听懂一句话”,其实是上述多个层次协同运作的结果。从声波到意义,中间经历的每一个环节都依赖特定的神经机制与认知资源,也都可能成为理解或遗忘的关键节点。