
人类的视觉系统是自然界最精妙的信息处理系统之一,却在很长一段时间内让试图模仿它的工程师们束手无策。为什么人可以在嘈杂的街头一眼认出老朋友,而早期的计算机程序处理一张照片却需要耗费大量资源?这背后的核心,在于视觉认知并不是简单地“看见”,而是一套高度组织化的信息筛选与建构过程。
注意力的本质是将有限的认知资源集中到视觉输入的选定部分,从而实现高效的模式识别。
视觉认知领域曾有一个听起来颇具吸引力的假设:大脑能够同时分析整个视野中的所有信息,就像摄像头一帧捕捉全景那样并行处理。这种“空间并行处理”理论确实在某些层面具有解释力,但一旦遇到现实中的复杂场景,它的局限性便立刻暴露出来。
以赫布的理论为例。他认为,人之所以能在视网膜的任意位置识别三角形,是因为对角度和形状敏感的神经细胞群在各处重复存在并相互连接。这套机制在处理单个图形时运转良好,但当两个三角形同时出现时,问题就来了。
如果所有对角度或三角形敏感的分析器都导向相同的中心结果,那么两个三角形应该产生与一个三角形完全相同的信号。按照这个逻辑,一串平行线与一条线没有区别,一组同心圆也等同于一个圆。
但即使是刚刚恢复视力的孩子也能轻松区分一个三角形和两个三角形的差别。这种区分能力依赖于赫布所说的“原始统一性”——视觉系统天然地将属于同一物体的特征捆绑在一起,将不同物体彼此分离。这个机制在模式识别中的重要性,远比直觉上认为的要大。
计算机字母识别系统曾面临同样的困境。大多数早期程序通过一次只处理一个字母来规避这个问题,相当于人为地确立了“原始统一性”。一旦让多个字母同时出现,程序必须先将它们分离才能各自识别,这个步骤在技术上叫做“分割”。没有有效的分割机制,并行处理带来的只会是混乱而非效率。
并行处理理论的困境不仅是定性的,在定量层面同样站不住脚。如果视觉系统要对整个视野中任意特征的组合做出判别,所需的神经资源将是天文数字。明斯基对此有过精辟的论断:
如果一台机器能识别椅子和桌子,它当然应该能够告诉我们“这里有一把椅子和一张桌子”。但没有办法逃避信息限制。所需要的显然是:一是场景中基本物体的列表;二是关于它们之间关系的陈述。
这段话揭示了一个关键问题:要处理包含多个物体的场景,视觉系统必须具备将注意力“专注于”画面某个选定部分的能力,而不是试图平等地处理所有信息。这就是焦点注意力存在的根本原因。
焦点注意力的核心功能,是将认知资源集中到视野中经过初步筛选的特定区域,使视觉系统能够对该区域进行更精细、更深入的分析。
视觉物体只有在被分割出来之后才能被识别。分割的完成,使感知者得以将大部分认知资源投入到视野中恰当的局部区域。在这里有必要区分两种不同含义的“注意”:赫布讨论的注意更多指一种“感知定势”或“期望”,而焦点注意是指在尚不知道视觉图形代表什么之前,就优先选择某个图形而非其他图形进行检查的过程。后者不涉及神秘的精神能量,只是简单地将分析机制分配给视野的某一有限区域。关注一个图形,就是对图像中相应部分施加某些分析与建构,而非以某种神秘的方式“直接看透”它。

焦点注意力并不是凭空产生的。在它介入之前,视觉系统已经完成了一轮粗粒度的初步处理,将视野中的信息整理成若干可供后续注意力选择的“候选对象”。这些初步操作被称为前注意过程,它们就像一群无声的整理者,在意识察觉之前就把复杂的视觉世界分门别类,整理有序。
前注意过程必须是真正“全局性”和“整体性”的。每个图形或物体都必须作为一个整体从背景中分离出来,为后续更精细的注意力分析提供框架。
这些过程的“全局性”并不神秘,实现起来也不需要极其复杂的机制。只要物体具有连续的轮廓,或与相邻物体之间存在间隙,一些相当简单的操作就能完成分离。从技术角度看,追踪线条或检测间隙的程序并不难写,而填充空洞、消除局部不规则的程序同样如此。
前注意过程具有层次结构。当在一行文字中寻找某个特定汉字时,前注意过程会将这个字保持为一个独立完整的单元。这是一项习得的技能,对未受过文字训练的儿童来说相当困难——他们必须依靠更粗糙的注意对象,比如整个页面或包含目标字的完整词组。
图形统一的前注意机制并非全部天生,其中一部分是通过后天经验逐渐习得的,但某些基本的分离能力确实与生俱来。
格式塔心理学家曾强调“整体大于部分之和”,意思是一个局部特征的外观取决于它所嵌入的整体结构。这一观点在前注意过程中体现得尤为明显。
将图形与背景分开的轮廓只“属于”图形,一旦发生图-背景反转,轮廓形状在感知上会发生根本性改变。
同一区域的颜色可能因其所属的图形不同而显得截然不同,这在贝努西环等视错觉中有清晰的体现。
由十字形组合而成的平行四边形,与单独呈现的平行四边形和十字形在感知上大相径庭,两者会被以完全不同的方式描述和记忆。
从信息处理的角度来看,整体优先于部分。感知系统并不是先认识各个细节再拼合为整体,而是首先形成整体结构,再在其框架内处理细节。
前注意过程的影响范围远不止于图形分割。有两类运动最常受到前注意控制:第一类是头部和眼部运动,构成注意力本身的重新导向;第二类是引导性的整体运动,例如行走、驾驶、视觉追踪。注意力不是随机指向的,它常常被视觉输入中已经被前注意机制提取出的线索所引导。运动是其中最有效的线索——当视野某处有物体移动时,即便当时没有主动注意那个方向,眼睛也会本能地转向那里。
日常生活中大量的认知活动都在前注意层面悄悄进行。早晨走进办公室时,一眼扫过去就知道“一切如常”,这种判断并非建立在对每一个细节的仔细审查之上。说不定墙上的画早已换了,或者今天坐在前台的是临时代班的人——只有当某个细节打破了预期,意识才会被拉回来,才会突然意识到“这里有什么不一样”。
许多司机都有过这样的体验:开着车,突然回过神来,才发现自己过去半小时几乎没有“真正”注意过路面,整个过程却安全地完成了。在这些情况下,行为完全由前注意分析器控制,一旦出现复杂路况,驾驶者必须迅速重新调动焦点注意。
魔术表演中有很多借助前注意机制转移观众注意力的例子。魔术师在视野一侧做出一个醒目的动作,观众的注意力会被不由自主地吸引过去,另一侧真正的关键动作因此得以在不被察觉的情况下完成。这种手法的有效性恰恰说明:前注意过程对运动高度敏感,而且这一过程是自动发生的,无法被意志力轻易阻止。

在对注意力的理论基础有了初步了解之后,有必要从更深层的角度重新审视感知这件事本身。如果视觉系统不是被动地接收信息,而是主动地筛选、组织并对选定内容进行精细处理,那么“感知”究竟是什么性质的活动?
为了处理包含多个物体的复杂场景,即使是机械识别系统也必须具备某种方式来选择输入信息的某些部分进行详细分析。这意味着存在两个分析层次:形成分离对象并引导后续处理的前注意机制,以及对选中对象进行更复杂操作的焦点注意行为。
即使是最先进的自动识别系统也需要图形形成和注意的过程,这让我们理解为什么这些过程在许多心理学理论中都明确或隐含地出现。
我们在一个被关注的图形中通常看到的详细属性,在某种意义上是“可选的”。它们不会仅仅因为相关信息存在于图像中就自动显现,而是因为输入的某个部分被选中接受注意、并对其执行了某些操作之后才得以呈现。分析的对象和分析的性质都不是不可避免的,在不同的观察者之间,以及同一观察者的不同时刻,都可能有所不同。
赫布曾将感知者比作古生物学家——他小心翼翼地从大量碎石中挑出可能是骨头的碎片,然后将其“重建”为最终陈列在博物馆里的恐龙骨架。这个比喻比“化学分析”的类比要贴切得多。化学家分析未知物质,是为了找出它“真正是什么”;而感知者的工作更像是在有限信息的约束下,主动构造一个最合理的解释。
从这个意义上说,焦点注意是一种建构性、综合性的活动,而不是纯粹分析性的活动。感知者并不是简单地检查输入并做出决定,而是在认知资源的引导下,逐步建构一个合适的视觉对象。
感知本质上是建构性而非接受性行为这一观念相当古老,至少可以追溯到布伦塔诺的“行为心理学”和柏格森的“创造性综合”。引入这个视角并非为了追求历史资历,而是因为它能帮助解释一些经验性的观察现象。
合成的内容不一定清晰或明确,我们构建的东西只具有我们赋予它的维度。这一点在所谓“生理学感知”的现象中体现得尤为明显——人们经常能直接感知到面孔上压抑的愤怒、动作中隐含的快乐,或者画面传递的宁静与和谐。这些感知通常显得非常直接,与其说是“注意到下颌的肌肉紧绷,然后推断出愤怒”,不如说是相反的顺序:情绪色彩是第一时间被感受到的,细节的分析反而在后。
这类反应并非少见,在儿童中尤为普遍。发展心理学的研究表明,感知的情感维度在儿童的认知发展中相当早就出现了,有时甚至早于对物体“客观”属性的精确区分。
在某些特殊状态下——高度焦虑或某些精神活性物质的影响下——这种情感性建构可能变得极度强烈,使得每一个可见物体都带上强烈的威胁感或异常的美感。这可以被理解为特殊建构模式主导了感知的结果。前注意过程本身既不带“情感色彩”也不带“几何色彩”,它们只是提供了原材料;焦点注意所进行的合成,才决定了最终产品的形态。
合成的概念不局限于视觉,同样可以应用于其他感觉通道。一旦学会了如何构造某个特定图形,就可以用几乎任何感觉材料来“制作”它,甚至完全不依赖外部输入,就像视觉想象中那样。感知字母和书写字母,在认知机制上属于同一类型的合成活动——这解释了为什么人们能够将一旦学会的模式轻松转移到不同的感觉通道或身体部位上。

“识别”这个词在日常语言中承担了太多含义。一种是“归类”意义上的识别——知道某个东西是什么;另一种是“熟悉感”意义上的识别——感觉见过这个东西,尽管可能叫不出名字。这两种识别往往重合,但并不总是如此。有时候,一个人凭借名片上的名字想起了某人,却当面认不出来;也有时候,某张面孔让人感到格外熟悉,却怎么也想不起是在哪里见过。
熟悉感体验偶尔会产生误导,但它作为一种真实的心理现象确实存在。理解它与模式识别过程之间的关系,需要认真对待这种主观体验,而不是将其视为识别过程中的干扰噪音。
研究熟悉性识别时必须使用新颖的刺激材料,以便在实验后询问参与者“你以前见过这个吗?”这类研究揭示了人类记忆一个令人印象深刻的特性:视觉记忆的容量和持久性远超通常的估计。
谢泼德在1967年进行的研究至今仍具有参考价值。他让参与者浏览612张不同的图片,主要是杂志插图,按自己的节奏观看,平均每张用时约六秒。随后,参与者接受68对图片的测试,每对包括一张此前看过的图片和一张新图片,结果令人震惊。
这种识别显然不可能依赖于与某种固定模板的精确匹配。人们在日常中能够识别因岁月而发生相当变化的老朋友,同时也可能在新的情境下认不出一个实际上并未改变的面孔。这些现象共同暗示,识别依赖的是特征与焦点注意的整合过程,而非简单的图像比对。
图形合成的概念为这种现象提供了一种合理的解释:产生熟悉感的不是刺激本身,而是感知行为。也许我们体验到熟悉感,是因为当前的视觉建构过程与某次早先的建构过程高度重合。
店主会被假钞欺骗,如果他当前的感知没有突出区分假钞与真钞的细节。但无论他现在多么仔细地观看,如果这些细节从未在他早期对真钞的感知中得到详细阐述,假钞仍然会欺骗他。

将前面的理论框架应用到具体的实验研究和工程实践中,可以帮助澄清一些长期以来存在争议的实证观察。视觉搜索实验发现,在某些条件下,增加搜索目标的数量并不会延长决策时间;而在另一些条件下,目标数量的增加会显著增加反应延迟。这种不一致,正是焦点注意与前注意过程之间分工差异的体现。
一个简洁的解释是:鼓励参与者对每个图案进行单独建构的实验条件,倾向于产生“连续处理”的结果;而缺乏这些条件时,“并行处理”的数据更容易出现。一次呈现一个刺激、对错误进行惩罚、练习量相对有限——这些因素都可能导致参与者对每个图案进行独立的感知建构,进而产生连续的处理模式。
在大多数反应时间实验中,参与者面对单次呈现的刺激,自然倾向于在每次出现时先“真正看清”——即完成一次视觉建构——再搜索记忆找到对应的反应。史坦伯格进行了一个精巧的实验来检验这一过程:参与者需要判断短暂呈现的数字是否属于预先指定的目标集合,结果发现,每增加一个目标数字,反应时间约增加35毫秒。
史坦伯格的研究结果表明,感知建构之后的记忆搜索,是将输入刺激的内部表征与每个可能的目标依次匹配的过程,而非整体并行比对。
然而,视觉搜索研究呈现出另一种面貌。在经过大量练习的视觉搜索任务中,每次搜索的时间不再随目标数量的增加而延长,参与者甚至报告说几乎“看不见”无关的字符。这表明他们的反应并不依赖于视觉建构,而是直接受前注意过程控制。长时间的练习使参与者形成了能够对整体显示特征敏感的前注意识别系统,一旦目标特征出现,注意力便被自动吸引过去,无需逐一建构每个字符。
当目标特征出现时,参与者立即做出反应并聚焦到目标本身。这解释了为什么他们有时会停下来却说不清楚刚才究竟看到了哪个目标——反应先于清晰的感知建构。
前注意机制不是为精确性设计的,精确性是焦点注意的职责。当反应在没有完整感知建构的情况下发生,错误和遗漏是可以预见的结果。经过足够多的练习,许多反应都能转变为前注意性质,这通常被称为“自动化”——驾驶、打字、识别熟悉面孔,都是这一过程的典型体现。
将这一原理推进到工程应用中,可以看到图形合成概念在计算机识别手写文字方面取得了实质性的进展。手写识别的难题在于,草书中相邻字母之间没有清晰的分割边界,传统的分割-识别流程在此几乎失效。伊登提出的“分析综合法”从根本上绕开了这个问题:他先将草书运动分析为基本“笔画”,研究产生这些笔画的运动学特征,再以此为基础构造试验性字母,只尝试那些能够组合成合法词汇的字母组合,并逐笔画地检查每个字母与输入的匹配情况。
这种方法的核心思路与人类视觉建构的过程高度吻合:在识别之前先有合成,合成的过程受上下文信息的约束和引导。程序中对词汇合法性的约束,正如同人类阅读时对语义和语法期望的运用——当“coi-”已经识别完毕,下一个字母更可能是“n”而不是“m”,程序据此调整搜索顺序,大大提高了识别效率。
这为期望和上下文在人类图形合成中发挥的作用提供了可操作的模型——语境约束不仅是辅助信息,而是建构过程本身的组成部分。
经过以上各节的讨论,现在可以从两个互补的角度对整个理论框架加以整合,从而呈现一幅较为完整的视觉认知图景。
首先,考虑这套机制如何在速示阅读实验中发挥作用。从短暂呈现的刺激到达眼睛的那一刻起,信息被短暂地保存在图像记忆中。在这个阶段,前注意的全局性整体过程将图案分解为一个或多个分离的图形。如果参与者被训练给出快速的运动反应,甚至可以在完整地建构任何图形之前就启动这一反应。
然而,前注意的早期并行过程在功能上有明显的限制。它们可以控制注意力转移,包括眼动和整体身体运动,但无法提供精细的结构分析或情感内容。对任何特定字母或图形的注意性建构需要相当长的时间,大约100毫秒,而且可能被在此期间到达的新输入所打断。如果要识别一整行字母,它们必须逐一建构——尽管前注意过程已经并行地将所有字母形成为分离单元,参与者因此产生了仿佛“一眼看到全部”的模糊印象。
“识别”在这里不仅仅意味着形成视觉对象,通常还意味着命名——需要同时完成视觉建构和语言-听觉建构两个层面的工作。
哪些图形或哪些属性首先被完整地建构和命名,就最有可能被准确报告。随后,图像记忆逐渐衰退,精确的图形建构变得不再可能,理解的广度最终取决于在图像保持期间能够建构并转入口语记忆的内容。
其次,整套过程可以围绕一个具体问题加以说明——当一个人看到汉字“马”时,他是如何知道那是“马”的?
“马”被前注意过程从同时呈现的其他字符中分离出来。这些机制强调图形的全局整体特征,而非孤立的局部细节,并在整个输入场域中并行运作。
焦点注意随后专注于“马”,要么因为内部引导的扫描恰好到达了这里,要么因为初步机制检测到了某种能够强制吸引注意力的显著特征。“将注意力引导到”某个图形,就是尝试对它进行更充分的建构。
注意性建构的过程通常会导致内部的语言化——产生“马”这个读音的听觉表征,可以存储在活跃的口语记忆中。与此同时,当前刺激的内部表征与记忆中存储的先前建构记录进行比较,从而确定其分类归属。
焦点注意的过程在很大程度上受发展背景和当前情境的影响,在不同个体和不同情境中采取不同的形式。当观察者预期一组字母会构成词语而非随机字母串时,其注意建构的策略和效率都会发生显著变化。
通过这样的整合,前注意过程、焦点注意和图形合成三个概念形成了一套完整的理论体系,解释了人类视觉认知的复杂机制。这套体系不仅有助于理解正常的视觉感知过程,也为设计更有效的机器识别系统、理解视觉障碍的认知机制提供了理论基础。视觉认知从来不是被动的接收,而是始终处于主动建构之中。