在我们日常生活中,有一个看似简单却又极其复杂的认知过程无时无刻不在发生——我们总是能够轻松地识别出各种各样的事物。无论是看到不同字体的字母“A”,还是认出朋友换了发型后的面孔,这种能力都体现了人类认知系统的一个根本特征:模式识别。 模式识别,或者说刺激等价性,是心理学研究中一个无处不在的核心问题。从格式塔心理学时代到现代计算机科学,研究者们一直在努力解开这个谜团:我们是如何做到让如此多样化的感官输入最终指向同一个认知结果的?
有一个这样的情景:你走在街上,看到各式各样的招牌、广告和路标。其中的字母“A”可能有着截然不同的外观——有的是粗体,有的是斜体,有的是手写体,有的甚至被设计得颇具艺术感。然而,无论形态如何变化,你都能毫不费力地将它们识别为同一个字母。
这个问题之所以复杂,是因为我们面对的不是简单的一一对应关系。每当我们说“识别”某个刺激时,实际上意味着许多不同的感官输入都能引发同样的反应。这种现象在认知科学中被称为“刺激等价性”。 在行为主义的语言体系中,这被描述为刺激泛化或刺激等价的问题。格式塔心理学家将其视为知觉过程与记忆痕迹之间接触的问题,也就是著名的“赫夫丁步骤”。哲学家们通常用“共相”和“从个别中抽象”的术语来表述这个问题。而在计算机技术领域,当涉及字母和数字识别时,这被称为“字符识别”,更广泛地则被称为“模式识别”。
面对这个复杂的问题,研究者们主要提出了两种截然不同的解决方案。
第一种被称为“模板匹配”理论。这种理论认为,我们的大脑中存储着各种标准模板,每当接收到新的输入时,就会将其与这些预存的标准进行比较,找到最匹配的那个。就像指纹专家通过重叠比较来确定指纹身份一样,我们的认知系统也是通过这种重叠匹配的方式来识别模式。
第二种则是“特征分析”理论。这种观点认为,模式识别的关键在于识别出输入刺激的特定部分或特定属性。我们不是整体地比较图案,而是分析其组成要素——比如线条、角度、曲率等特征,然后基于这些特征的组合来进行识别。
这两种理论的分歧不仅仅是学术争论,它们代表了对人类认知机制的根本不同理解。模板匹配强调整体性和相似性,而特征分析则强调分解性和构成要素的重要性。
要理解模式识别,我们必须区分不同层次的认知过程。并不是所有的知觉过程都涉及分类。许多认知活动,比如图像的暂时性存储,并不需要进行严格意义上的分类。 当我们的神经系统只有有限的辨别能力时,非常相似的输入往往会产生相同的表征。在某种意义上,我们可以说这些输入被“归为一类”了。但这种用法使得术语变得没有意义,因为即使是照相底片也具有同样的“分类”特性。
真正有意义的模式识别或分类,只有当genuinely diverse inputs(真正不同的输入)导致单一输出时才会发生
保持刺激的形状、大小、位置和其他形式特征的认知阶段应该被称为“字面的”或“模拟的”,而不是“分类的”
只有当不同的视觉配置都能引发相同的命名反应时,我们才能说发生了真正的模式识别
这种区分很重要,因为它帮助我们理解,模式识别是一个特殊的认知过程,它超越了简单的感官记录,涉及到更高层次的抽象和归类能力。
即使在最理想的情况下——假设每个“A”都是一个精确的中央存储原型的完美复制品——我们仍然会发现一个关键步骤需要理论解释。新出现在眼前的“A”仍然只是一个外围事件,识别需要它与适当的中央存储信息建立联系。 这就是格式塔心理学家所称的“赫夫丁功能”。这个概念来源于19世纪丹麦心理学家赫夫丁,他认为简单的联想理论需要这样的完善。仅仅说“看到面包会因为先前的联想而引起黄油的想法”是不够的,这忽略了一个关键步骤。
当前看到的面包作为刺激或知觉过程,通常并不与黄油直接相关联;只有存储的面包记忆才会有这种联想。因此,我们必须假设当前事件首先被识别为面包,即它与早期面包经验的“记忆痕迹”建立联系。只有这样,预先存在的联想才能发挥作用。
这个洞察揭示了一个重要原理:联想无法在没有先前模式识别的情况下发挥作用。每一个看似简单的联想反应,实际上都预设了一个复杂的识别过程。
面对模式识别的挑战,最直观的解决方案就是模板匹配理论。这个理论的核心思想简单明了:我们的大脑中存储着各种各样的标准模板,当新的输入出现时,我们就将其与这些预存的标准进行比较,寻找最佳匹配。 假设警探鉴定指纹的过程。他会将嫌疑人的指纹样本依次与预先记录的每个指纹进行叠加比较,直到找到匹配的为止。即使新样本可能有些污损、扭曲或不完整,只要匹配度足够好,就能够确定身份。从某种意义上说,这就像是在计算两个模式之间的相关系数,看是否接近1.0。
模板匹配理论的优势在于其直观性和可操作性。它提供了一个清晰的机制:存储、比较、匹配。这种方法在某些特定的人工系统中确实取得了成功。
格式塔心理学家认为,如果所有“A”的样本都完全相同,甚至在视网膜上的位置也相同,那么一个非常简单的机制就足以解决赫夫丁问题。在这种情况下,中央表征可以是先前发生的知觉事件的精确复制,它可以通过重叠被“唤醒”或“接触”——也许所有神经元都会被知觉系统中的对应神经元同时激发。
然而,当我们仔细审视模板匹配理论时,很快就会发现它面临着三个根本性的问题,这些问题几乎是致命的。
日常经验告诉我们,熟悉的图案无论出现在视网膜的哪个位置都能被识别。这对任何模板理论都构成了严重挑战:如何找到正确的原型进行比较? 一种可能的解决方案是假设任何熟悉的形式在成年人的视网膜上都已经出现在每一个可能的位置,留下了如此多的模板,以至于与其中某个模板的接触变得不可避免。但这种解释存在明显的问题。
如果要识别的图案是全新的、前所未见的,这种解释就完全失效了。更重要的是,实验证据表明,即使是全新的图案也能在新的位置上被成功识别。
除了位置变化,大小变化也是模板匹配理论难以解决的问题。我们可以轻松识别远处朋友的面孔,即使他的视网膜像大小比近距离时要小得多。这种尺寸不变性是日常视觉经验的基本特征,但对于严格的模板匹配来说却是一个巨大障碍。
也许最令人困扰的是旋转问题。将一个正方形旋转45度,它看起来就像钻石;将书页旋转90度,阅读就变得困难。然而在某些情况下,我们仍然能够识别旋转后的图案。 实验研究表明,虽然旋转确实会影响识别,但这种影响很大程度上取决于观察者是否知道发生了旋转。当人们知道图案已经旋转时,识别就变得相对容易。这表明存在某种复杂的重定向机制,而不是简单的模板匹配。
面对这些挑战,一些研究者提出了修正版的模板匹配理论。他们的策略是在输入和模板之间插入一个分析层次,这个过程被称为“预处理”。 预处理操作通常包括两类。第一类是“清理”输入,消除各种小的瑕疵和噪音。手写字母转换为计算机输入时,通常包含许多无关紧要的孤立点和空白。简单的清理程序可以填补小洞、消除孤立点,大大简化识别任务。 更强大的可能性是对输入图形进行“标准化”。无论图形最初出现在哪里,都可以有效地移动,使其中心与输入区域的中心重合。然后可以对称地扩展或收缩,直到其高度和宽度达到某个标准值,并旋转直到其最长轴达到固定方向。
位置标准化:将图形移动到标准位置
大小标准化:调整到统一的尺寸比例
方向标准化:旋转到标准朝向
模板匹配:在标准化后进行比较
这种标准化假说并非完全不可信。当我们移动眼睛注视感兴趣的物体时,或者将书本保持在合适的距离,或者将图片正面朝上观看时,都在进行某种形式的“标准化”。
尽管标准化和模板匹配的结合可以解释人类模式识别的许多方面,但它们绝不可能是完整的答案。最令人信服的反对论据来自于不明确定义类别的存在。 考虑手写字母的例子。每个手写的“A”在实际的字母识别实验中都被所有被试者正确识别,没有任何人误认。然而,它们彼此之间的差异是巨大的。如果所有这些都是“A”是因为“它们看起来相像”,我们必须思考是什么过程创造了它们的相似性。
模板理论面临的最终挑战是:即使在量化重叠的意义上,某些“A”看起来更像“R”、“H”或“4”,但我们仍然能准确地将它们识别为“A”。这表明识别过程并不总是基于整体的、全局的相似性。
更进一步,小细节有时能对图案的分类产生巨大影响。Q和O之间的差别很小,但却是决定性的。卡通脸部表情的微小曲线变化就能完全改变其表达的情感。这些关键特征在整体比较中很可能被忽略,这进一步质疑了模板匹配的有效性。 这些观察结果强烈暗示,图案的识别并不总是基于它们的整体、全局属性,而更可能涉及对特定特征或属性的分析。这就引出了我们需要考虑的下一个理论框架:特征分析理论。
面对模板匹配理论的困境,研究者们转向了一个更加精巧的解决方案:特征分析理论。这个理论认为,模式识别不是基于整体形状的匹配,而是基于对构成模式的关键特征或属性的识别。 如果你是如何识别朋友的。你可能不是将他的整个面孔与记忆中的“模板”进行匹配,而是注意到他的特定特征:高鼻梁、深眼窝、特殊的笑容等。这些特征的组合让你确信这就是你的朋友,即使他可能换了发型或戴了眼镜。 特征分析理论的核心观点是:识别过程是分层次的。在最基础的层次上,存在着各种“特征分析器”,它们专门检测输入中特定特征的存在。这些特征可能是线条、角度、曲率,也可能是更复杂的属性如“凹性”、“水平性”等。
特征分析器的美妙之处在于它们可以并行工作。当一个字母“A”出现时,所有相关的特征分析器——检测尖角的、检测交叉线的、检测对称性的——都同时开始工作,而不需要等待其他分析器完成。
奥利弗·塞尔弗里奇提出了一个极富想象力的模型来解释这个过程,他称之为“Pandemonium”(群魔乱舞)。在这个模型中,每个可能的模式(比如字母表中的每个字母)都由一个“认知魔鬼”代表。 这些认知魔鬼是自恋的——它们不断寻找证据证明自己正在图像中被描绘。为了获得这些证据,它们依赖于一群“计算魔鬼”,这些计算魔鬼对输入执行各种操作,全部同时进行。当一个认知魔鬼找到足够多的支持证据时,它就会大声呼喊,而“决策魔鬼”会选择呼喊声最大的那个作为对刺激的识别结果。
输入图像到达系统
所有计算魔鬼同时分析输入的不同特征
认知魔鬼根据相关计算魔鬼的输出调整自己的兴奋水平
最兴奋的认知魔鬼获胜,决策魔鬼报告识别结果
这个模型的优雅之处在于它完全摆脱了模板匹配的限制。一个Pandemonium可以识别任何模式,只要存在某种特征的加权组合能够将类别成员与非成员区分开来。更重要的是,它可以通过学习改善自己的表现——只需要在每次试验后被告知识别是否正确,从而调整相关的权重。
与此同时,N.S.萨瑟兰从动物的辨别能力出发,提出了类似的理论。他认为,如果动物能够区分两个刺激,它必须拥有某种对这两者反应不同的机制。辨别学习就是将适当的反应与正确分析器的输出相联系。 萨瑟兰的原始研究是对章鱼进行的。这些动物很容易区分垂直线和水平线,但显然无法区分向右倾斜45度的线和向左倾斜45度的线。这让萨瑟兰假设它们拥有垂直性和水平性的分析器,但缺乏其他倾斜角度的分析器。
萨瑟兰理论的重要贡献在于,它将心理学的行为研究与可能的神经机制联系起来。通过观察动物能够和不能够区分什么,研究者可以推断出其视觉系统中存在哪些特征分析器。
唐纳德·赫布提出了另一种特征分析理论,但他的方法更强调发展过程。赫布认为,新生儿的神经系统基本上是随机连接的网络,复杂的认知能力是通过与环境的互动逐渐发展出来的。 在赫布的模型中,第一层处理由“细胞集合”组成,它们的作用很像特征分析器。但是,在这一层提取的唯一特征是线条、角度和轮廓。实际上,这个模型(像其他一些模型一样)是特征理论和模板理论的结合:这些“特征”实际上是部分的简单模板。 为了解决赫夫丁问题——反应似乎不依赖于视网膜位置——赫布使用了空间并行处理的概念。这些部分模板在整个输入区域中重复出现,相应的模板相互连接。这样,特定方向的线条(比如)无论出现在哪里都会激发实际上相同的集合。
赫布理论面临的一个根本问题是:在他描述的条件下,细胞集合是否真的会形成并维持其完整性?这个问题经常被提出,许多学者对此表示怀疑。
特征分析理论引入了一个革命性的概念:并行处理。这意味着多个认知过程可以同时进行,而不需要等待其他过程完成。这与传统的序列处理形成了鲜明对比。 在序列处理模型中,识别过程就像一个决策树。系统首先进行一个测试,根据结果选择下一个测试,依此类推。这种方法效率很高,因为它将必要的测试数量减少到最少。但它也很脆弱,因为即使是单个错误步骤也会使程序走向错误的分支。 相比之下,并行处理模型中的所有特征分析器同时工作。即使某个分析器出现故障,其他分析器仍然可以提供足够的信息来进行正确识别。这种冗余性使得系统更加鲁棒和可靠。
对并行处理最有力的支持来自于视觉搜索实验。想象你在一个充满字母的页面上寻找特定的目标字母。根据模板匹配理论,你应该逐一检查每个字母,将其与目标模板进行比较。但实验结果却显示了截然不同的情况。 经过练习的被试者可以达到每秒十行甚至更快的搜索速度。他们报告说根本“看不到”单个字母,一切都是模糊的,只有目标字母会“跳出来”。更令人惊讶的是,同时搜索多个目标(比如“寻找Z或K”)与搜索单个目标一样快。 这些发现强有力地支持了并行处理模型。如果识别是序列进行的,那么额外的目标就应该需要额外的时间。但实验结果恰恰相反,这表明所有的特征分析器确实是同时工作的。
一个熟练的被试者可以同时寻找十个不同的目标字母,速度与寻找单个目标完全相同。这种现象在新闻剪报机构的专业读者身上表现得尤为明显——他们能够以每分钟超过1000个单词的速度扫描报纸,寻找数百个客户的任何相关信息。
基于这些发现,研究者提出了一个层次化的特征分析模型。在最底层,大量的特征分析器测试输入中各种特定特征的存在。这些特征的细节并不完全清楚——它们可能是字母的部分、字母之间的间隙,甚至是圆度、角度或平行线等全局属性。 在这些特征分析器之后,模型假设存在一个“字母分析器”层。这些分析器与模板完全不同——它们不像输入模式。相反,每个分析器都对早期层次上特定的加权概率组合测试做出反应。没有单一属性是唯一必要的来激发Z分析器;各种组合都可以做到这一点。 在搜索情况下,除了目标的字母分析器外,其他分析器可以被有效地“关闭”,而所有的特征分析器继续测试输入。这意味着活动被限制在特征层,直到目标真正出现。结果,无关的字母本身不会被看到。 这种层次化的并行处理模型成功地解释了许多模式识别现象,为我们理解人类视觉认知提供了一个强有力的框架。然而,正如我们将看到的,即使是这个精巧的理论也面临着新的挑战和问题。
练习之所以有效,是因为它让不同的、更快的第一层分析器发挥作用。在许多情况下,这些分析器对整个字母块的特征敏感,而不是对单个字母的属性敏感。
虽然理论模型为我们提供了理解模式识别的框架,但真正的考验来自于实证研究。当研究者们在实验室中测试这些理论时,他们发现了一些既支持又挑战现有理论的惊人现象。 对于位移(图案在不同位置出现)的研究表明,熟悉的图案几乎可以在视网膜的任何位置被识别出来。这个看似简单的观察结果对模板理论构成了重大挑战,但也为我们理解人类视觉系统的灵活性提供了重要线索。
有一个简单而有力的演示可以证明这种位移不变性:让朋友用手指在你的后背上“写”一个字母。尽管这种模式很可能从未在你的后背出现过,但你通常能够毫不费力地识别出来。这种跨位置甚至跨感官的识别能力,与运动技能的可转移性非常相似。
旋转对模式识别的影响要比位移复杂得多。日常经验告诉我们,旋转可以产生显著的感知变化。将正方形旋转45度就得到了钻石;将书页旋转90度会让阅读变得困难。 罗克(Rock)的开创性研究揭示了一个重要原理:虽然图案可以在旋转后被识别,但这种识别依赖于一个相当复杂的机制。关键不在于视网膜上图像的方向,而在于知觉者对图案方向的理解。 实验发现了几个引人注目的现象:
现象学方向的重要性 当被试者知道图案被旋转了,或者能够感知到哪一部分是“顶部”时,识别就相对容易。但如果不知道发生了旋转,即使是熟悉的图案也可能无法被识别。
头部运动与视网膜运动的分离 如果被试者将头部旋转90度来观看图案,识别没有困难——因为他们知道自己的头部移动了,仍然知道图案的哪一部分是真正的“顶部”。但如果图案和头部同时旋转(实际上保持视网膜方向不变),识别反而会受损。
感知者必须从图案中分离出或构建一个定向轴
这个轴定义了什么是“顶部”和“底部”
只有在这种定向处理之后,识别才能发生
没有这种中介处理阶段,识别可能就不会发生
阅读为旋转效应提供了特别有趣的案例。科勒斯(Kolers)和他的同事研究了各种旋转和变换对阅读速度的影响,发现了一些看似矛盾但实际上很有启发性的结果。 将整行文字旋转180度(倒置)比单独翻转每个字母或从右到左排列要容易处理得多。这个发现起初似乎违反直觉——180度旋转同时涉及颠倒(上下翻转)和反转(左右翻转),为什么会比“单一”变换更容易? 希腊人曾经使用一种叫做Boustrephedon(牛耕式)的书写方式,其中每隔一行就以这种方式旋转。这种历史例证表明,人类的阅读系统具有比我们通常认为的更大的适应性。
答案在于字母间的关系保持。在180度旋转中,所有字母彼此之间以及与行的现象学“顶部”的关系都保持不变。正是这种关系,而不是视网膜方向本身,区分了6与9或u与n。
儿童研究为理解旋转效应提供了另一个重要视角。表面上看,研究发现似乎存在矛盾: 一方面,学龄前儿童经常不在意图片是否正面朝上就开始观看,并且经常以颠倒或镜像的形式绘制字母。这似乎表明他们的感知过程对方向相对“无动于衷”。 另一方面,Ghent和她的合作者清楚地证明,儿童实际上不太擅长识别旋转后的图案。即使是相对简单的旋转也会给他们带来困难。
这个明显的矛盾需要仔细的解释。关键区别在于主动补偿旋转(成人展现的能力)与简单地无法区分图案的两种方向之间的差异。两者都可能导致相同的外在表现,但其潜在机制完全不同。
对儿童“方向无关性”的更合理解释涉及特征分析理论。许多图案的特征在旋转时保持不变:旋转后的A仍然有尖角,旋转后的P仍然有封闭环,旋转后的Y仍然有中心锐角,旋转后的C依然是圆形的。 如果识别基于这些关键特征的存在,而不是基于模板,那么它也能显示“旋转无关性”。一个将所有圆形字母识别为C的被试者能够在任何方向识别C,当然也无法将其与O区分开。 Gibson等人的实验支持了这种解释。他们让儿童从一行图案中挑出与标准图案“完全相同”的图案。结果显示:
这个结果很好地符合关于学龄前儿童对旋转无动于衷的一般观察,并明确表明这涉及的是混淆和缺乏辨别,而不是复杂的补偿机制。
相比于位置和方向,大小变化对模式识别的影响研究相对较少,但同样重要。日常经验强烈表明,视网膜大小对识别的重要性很小。一个站在3英尺外介绍给你的人,当他走到房间另一端时你仍然能够认出来,尽管他的视网膜像已经大大缩小。 但在这种情况下有许多其他线索,你甚至可能在他背对着你的时候就“认出”他。这提醒我们,真实情况下的识别往往涉及多种信息源的整合。
一个有价值的研究方向是使用类似于Rock关于旋转的可逆图形方法来研究大小效应。预期结果可能会类似于Rock和Heimer关于方向的发现:如果被试者知道当前图形相对于过去的图形被放大了,识别应该很容易;没有这种知识,识别可能就不会发生。
这些发现与熟悉的形状和大小恒常性有什么关系?当你前后移动书本时,即使视网膜投影发生巨大变化,书页上的字母仍保持其现象学形状和明显大小。这是因为它们已经被识别了吗? 最好的答案是“不”。即使是不熟悉的物体也会在这种变换中保持其形状和大小。相反,恒常性似乎在识别之前起作用,使识别成为可能。
到目前为止讨论的变换(位移、旋转、大小变化)都产生了我们可以称为“明确定义类别”的东西。类比于明斯基对“明确定义问题”的定义,明确定义的类别提供了“某种系统化的方法来决定一个提议的解决方案是否可以接受”。 但正如许多有趣的问题都是“模糊定义的”一样,大多数类别也缺乏清晰的边界和公式。现实生活中的类别大都是模糊定义的:狗与猫的视觉区别、美丽与丑陋的区别,都没有固定的标准,就像创造性科学与平庸工作的概念性差异一样。
模糊定义类别的存在对任何严格的模式识别理论都构成了巨大挑战。没有明确的规则,系统如何能够一致地进行分类?这个问题的复杂性在人工智能的早期发展中变得尤为明显。
对于这类问题,存在两种可能性。简单的选择是假设表面上“模糊定义的”类别实际上是由研究者忽略的某些情境特征来定义的。动物行为学家的工作经常证明这一点:刺激刺鱼打斗行为的并不是某个模糊定义的“敌对行为”,而是特定类型的红点。 然而,对于许多重要类别,这种简单解决方案显然不起作用。自动模式识别的尝试使这一点变得明显。尽管在开发能够区分脑电图模式的系统方面投入了大量精力,但没有建立令人满意的系统。手写字母识别程序取得了相当大的成功,但只有借助相当大的复杂性才能做到。
类别分配并不总是认知过程的终点;它可以是开始。当被试者期待数字时被识别为“13”的刺激,在期待字母时就变成了“B”;在一个场合容易被描述为“S”的模式可能在其他场合被称为“5”或“蛇”,甚至被当作“无意义的模糊”,或者完全被忽视。 这些是“心向”或“期望”的熟悉效应。利普(Leeper)的经验表明,像“它是一个乐器”这样的语言线索对模式识别是有力的帮助。有趣的是,即使有了这个提示,某些图形仍然难以组织,但如果你被具体告知它代表小提琴,就变得容易识别了。
被试者接收到情境线索或形成期望
某些特征分析器或识别路径被优先激活
模糊输入在这种预设的框架中被解释
识别结果反映了期望与感官输入的相互作用
布格斯基和阿拉姆派的研究显示,这种效应甚至可以在没有明确语言指导的情况下诱发。在展示几张动物图片后,他们向被试者展示了模糊的“鼠人”图形。大多数人将其看作老鼠,而没有特殊预训练的被试者通常看到的是人。显然,实验组已经形成了对动物的“心向”,尽管这样的类别可能是模糊定义的。
这些发现表明,模式识别不仅仅是被动地分析输入刺激,而是主动地根据期望和情境来构建知觉经验。我们看到的不只是“在那里”的东西,还包括我们期望看到的东西。
如果我们要理解模式识别的机制,仅仅观察识别的准确性是不够的。我们还需要研究识别的速度。反应时间实验为我们提供了一个独特的窗口,让我们能够窥视认知过程的内部工作机制。 在选择反应时间实验中,被试者必须根据出现的n个刺激中的哪一个做出n种不同反应中的一种。这种反应时间可以用来研究分类的速度。根据序列理论,我们可以预期更多的选择会导致更长的决策时间;这确实是经典的结果,通常归因于默克尔。 希克在1952年重新开启了这个问题,实验结果呈现出一个特别整齐的形式。每当他将选择数量翻倍时,反应时间就增加一个固定量。这意味着时间是选择数量对数的线性函数;即“刺激信息量”的线性函数。 这个结果与某些序列特征测试模型的预期完全一致;理想情况下,将选择数量翻倍意味着需要一个额外的二进制特征来区分它们。对于模板理论来说,希克的结果不那么令人安慰。如果n个模板中的每一个都与输入依次进行相关,总时间可能预期与n成线性增长,而不是与log n。
希克定律(RT = a + b log₂ n)成为认知心理学的经典发现之一。它表明人类信息处理遵循某种基本的容量限制,每增加一位二进制信息需要固定的额外时间。
在稍有不同的实验中出现了更为线性的函数,斯滕伯格称之为“字符分类”。在这里,被试者只有两种反应,我们可以称为“是”和“否”。斯滕伯格使用0到9的数字作为刺激,将其中1个、2个或4个分配给“是”类别,其余分配给“否”类别。 平均决策时间对分配给较小(“是”)集合的每个额外数字增加约35到40毫秒。斯滕伯格得出结论,存在“一个内部序列比较过程,其平均速率在每秒25到30个符号之间”。 序列测试模型也很好地拟合了其他实验者的数据。这些发现似乎为序列理论提供了强有力的支持。但是,另一组发现给出了完全不同的印象。
当字母、数字或单词作为刺激,它们的名称作为反应时,默克尔原理似乎完全失效。响应所需的时间不依赖于实验中使用了多少数字,也不依赖于选择单词的词汇范围。当刺激和反应高度“兼容”时,选择的数量也不重要。 甚至对于其他材料,在大量试验后,可能的备选刺激数量可能不再影响反应时间。然而,并非所有熟悉或练习充分的材料都显示出这种对默克尔原理的自由。研究显示,命名颜色、符号、动物和朋友面孔所需的时间确实随选择数量增长;只有对字母他们发现没有增加。
这个发现暗示阅读中使用的模式有某种特殊之处。字母识别可能涉及与其他类型模式识别根本不同的机制——很可能是真正并行的特征分析过程。
视觉搜索实验为并行处理提供了有力证据。实验使用50行列表,每行随机包含一个目标字母。被试者从顶部扫描寻找目标。 经过练习,被试者可达到每秒十行的搜索速度,具体取决于辨别难度。被试者报告他们并未“看到”个别字母,目标会自动“突出”。时间分析显示,熟练被试者能一眼处理多行内容。
最有趣的发现是多重搜索不比简单搜索花费更长时间,前提是被试者充分练习。寻找“Z或K”与单独寻找这些目标中的一个一样快。实际上,被试者可以寻找十个目标中的任何一个,就像寻找单个目标一样快。
这个发现在理论上很重要,因为它似乎排除了序列比较作为所涉及的机制。新闻剪报机构的经验丰富读者提供了实用背景下多重搜索可行性的案例——这样的读者可以以每分钟超过1000个单词的速度搜索日报,寻找通常有数百个客户的任何引用。 这些结果的总体趋势建议了一种基于并行处理和分离特征的解释,这为我们理解人类模式识别提供了强有力的框架,同时也为开发更先进的人工智能系统指明了方向。
近年来,神经生理学研究为我们对模式识别机制的理解提供了直接的支持证据。通过微电极技术,研究者们能够记录单个神经元的活动,揭示了视觉系统中确实存在特征分析器的神经基础。 莱特文和他的合作者对未麻醉青蛙的视神经纤维进行了记录,发现了令人惊讶的特化程度。他们发现了多种类型的纤维,每种都对特定类型的视觉刺激选择性地反应:
这些发现清楚地表明,复杂的输入特征,而不仅仅是简单的部分,在视觉系统的早期阶段就被提取出来。这为塞尔弗里奇的Pandemonium模型提供了强有力的神经生理学支持。
胡贝尔和威塞尔在猫的视觉皮层中发现了另一类重要的特征检测器:方向敏感细胞。这些细胞对特定方向的边缘或线条特别敏感,为萨瑟兰的分析器理论提供了直接的神经基础。
儿童研究为理解模式识别的发展提供了独特的视角。吉布森和她的同事们的研究表明,模式识别能力遵循着可预测的发展轨迹: 年幼的儿童更多地依赖简单、方向不敏感的特征,而年长的儿童和成人则发展出更复杂的分析能力,能够进行心理旋转和复杂的特征整合。这种发展模式支持了特征分析理论,同时也揭示了不同认知策略在不同年龄阶段的相对重要性。
回顾整个模式识别研究的发展历程,我们可以看到一个清晰的理论演进轨迹:
从简单到复杂:最初的模板匹配理论因其简单性而吸引人,但很快就暴露出明显的局限性。特征分析理论提供了更大的灵活性,但也带来了新的复杂性。
从序列到并行:早期的序列处理模型让位于并行处理模型,后者能够更好地解释人类认知的速度和鲁棒性。
从静态到动态:现代理解强调了期望、情境和学习在模式识别中的能动作用,认识到这是一个主动的构建过程,而不是被动的匹配过程。
尽管我们在理解模式识别机制方面取得了显著进展,但许多基本问题仍未解决。模糊定义类别的处理、多层次特征整合的机制、以及学习如何改变特征分析器本身,这些都是未来研究需要深入探讨的领域。
这些来自认知心理学的洞察对当代人工智能的发展具有深远的意义:
层次化处理:现代深度学习网络的层次化结构与这里讨论的特征分析层次有着惊人的相似性。
并行处理:GPU的并行计算能力使得类似Pandemonium的大规模并行特征检测成为可能。
学习与适应:现代机器学习系统的自适应权重调整机制与早期特征分析理论中的权重学习概念一脉相承。
情境敏感性:注意力机制和上下文嵌入等现代技术体现了期望和情境在模式识别中重要作用的认识。
模式识别研究的历史告诉我们,理解人类认知不仅具有纯粹的科学价值,更为技术创新提供了源源不断的灵感。从格式塔心理学到现代神经网络,每一次理论突破都推动了我们对智能本质理解的深化。
模式识别作为认知心理学的核心问题,不仅揭示了人类智能的基本特征,也为我们设计更智能的人工系统指明了方向。在这个快速发展的时代,回顾和理解这些基础理论比以往任何时候都更加重要。它们提醒我们,真正的智能不仅仅是模式匹配,更是一个涉及层次化特征分析、并行处理、情境敏感和持续学习的复杂而精妙的过程。