2.3 言语感知模型
言语感知是心理语言学研究的一个重要方面。言语感知的英文名称是speech perception,汉语中又称作“言语听辨”,指听者对听到的言语进行感知和判断。为了解释言语感知的心理机制,心理语言学家们提出了多种言语感知的理论模型。虽然相关理论模型很多,但从本质上来说可以分为两大类:一类是自下而上的理论模型,认为言语感知是一个听觉输入到语音层面,再到词辨认的过程,不考虑词汇效应和“高层次”认知的作用;另一类是自下而上和自上而下交互式的理论模型,认为高层次的知识在言语听辨中起到显著的作用,自下而上的信息和自上而下的信息都起作用。自下而上的模型主要考虑音段辨认,而交互式模型以词辨认为主要目标。下面分别对这两种理论模型进行详细介绍。
2.3.1 自下而上的感知模型
自下而上的言语感知模型主要有三种:言语感知的肌动理论(Motor Theory of Speech Perception)、合成分析模型(Analysis-by-Synthesis Model)和模糊逻辑感知模型(Fuzzy Logical Model of Perception)。它们都与语音的音段感知有关,每种模型都“试图设计一种把声学的言语信号和音段相对应的手段,认为音段可以无须参照意义或句法来辨认”(桂诗春,2000:248)。
2.3.1.1 言语感知的肌动理论
言语感知的肌动理论是由Liberman和他的同事们提出来的(Liberman et al., 1967; Liberman & Mattingly,1985、1989),是认知心理学中最经常被提及的理论之一,但是这个理论在不同的学科领域却有不同的接受度。一方面,在言语感知领域很少有学者支持肌动理论,许多引用这一理论的学者主要是对它进行批判,如Sussman(1989)、MacNeilage(1991)等;另一方面,在言语研究领域之外,肌动理论具有较广泛的认可度,可见Williams & Nottebohm(1985)、Rizzolatti & Arbib(1998)等。
肌动理论主要有三个观点:①言语处理是特殊的;②感知言语就是感知声道的姿势;③言语感知涉及言语运动系统,运动系统需要得到训练来感知言语(Galantuci et al.,2006)。肌动理论的第一个观点是指言语是人类的一种特殊的听觉刺激,一旦我们与之接触,我们就会自动转移到言语状态。“言语状态的感知是内在的,人类独有的”(桂诗春,2000:246)。但是这一观点中的“特殊”(special)一词至少有三种解释,因此Galantuci et al.(2006)认为第一个观点是错误的,同时指出其他两个观点都能得到许多实证研究的支持。
肌动理论把言语感知和言语产出联系起来,认为言语感知和产出运用同样的机制。在言语感知过程中,言语信号是参照言语的肌肉活动来辨认的,即听者是“按照自己怎样产出言语来感知言语的”(桂诗春,2000:245)。肌动理论的这一观点针对声音信号和其语音表征“缺乏不变式”的问题而提出。“缺乏不变式”是指语音没有不变式(invariant)或标准式,语言的音素和它们的表征没有一一对应的关系。导致缺乏不变式现象的原因有很多,如毗邻音的发音部位,说者的性别、年龄,言语发生的场合,语速等。早期的肌动理论认为不变式是在言语感知的肌肉发音层面上发生的,但是并没有获得预期的结果。后来又认为不变式存在于早期的神经肌肉层面,而不是哪一个向发音器官发出肌肉命令的实际的发音阶段(桂诗春,2000)。虽然人们实际发音中的音高、音长、音强和音质等声音属性不同,但是听者依然能够识别各个音位,这是因为“每个音位的发音特征决定了从大脑输送到声道结构的动作指令是不变的”(尚国文,2011:13)。
肌动理论认为人们通过识别说者打算使用的音姿(phonetic gesture)来感知语音(Carroll,2000),但是却遭到了质疑。MacNeilage(1991)指出音姿的概念过于抽象,所以肌动理论不能被直接验证。Liberman & Mattingly(1985)承认大脑神经发出的指令不会使声道的构造保持不变。随着语音情境的变化,声道的结构反而会随之改变。
虽然肌动理论有一些不足之处,但是它对人们认识语言有较大的启示。特别值得一提的是,这一理论并不认为大脑中负责言语感知和言语产出的区域相互独立、各司其职,反而认为这两个区域由脑神经紧密联系在一起。Ojemann(1983)提供了一些实证支持。此外,肌动理论对语言习得有一些有趣的启发。Liberman & Mattingly(1985)推测1岁以内的婴儿可能对任何语言的语音都很敏感,但随着时间的推移这种敏感性会逐渐降低,最后逐渐仅限于自己的母语语音。如果真是这样的话,那么连接感知和产出技能的语音模块将是语言习得中的一个重要的内在机制。这个观点得到了较多实证支持,如Werker & Tees(1983、1984), Polka & Werker(1994)等。
近年来,随着脑科学的发展,神经语言学家利用先进的脑科学技术对大脑中控制听和说两部分的大脑皮层进行了研究(Watkins et al.,2003; Guenther,2006; Möttönen & Watkins,2009),发现控制语音产出的大脑皮层和控制语音感知的大脑皮层相互联通。在进行言语感知时,控制言语产出的大脑运动皮层也参与工作。这些研究证实了肌动理论关于言语感知和产出紧密联系的观点。
2.3.1.2 合成分析模型
合成分析模型是由Stevens(1960)和Stevens & Halle(1967)提出来的。这是关于言语感知过程的抽象模型,假定听者根据自己所听到的话语来隐含地生成/合成言语,并把它和听觉刺激“合成的”言语加以比较,从而听辨/分析言语(桂诗春,2000:246)。
在这个模型中,系统的匹配是言语感知过程中至关重要的环节,而人们在系统匹配中使用了一个抽象的区别性特征的矩阵。感知言语的过程从分析言语信号的声学特征开始,听者将一个外来的信号与一个或几个内部产生的信号进行比较。当发现匹配时,听者把外来信号看成与相匹配的内部产生的信号具有同样的特征,从而获得成功的分析(特拉斯克,2000:17)。如果没有相匹配的内部信号,就需要作进一步的处理。进一步发展的合成分析模型认为言语的性质可以根据声学信号本身独特的、不变的特征来规定(Stevens & Blumstein,1978),即支持“不变式”论题。
合成分析模型与肌动理论一样,都把言语生成和言语感知联系了起来。
2.3.1.3 模糊逻辑感知模型
模糊逻辑感知模型比肌动理论和合成分析模型更新。它从模式识别的角度来研究言语听辨,认为言语感知需要经过三个操作过程:特征评估(feature evaluation),特征结合(feature integration)和特征决策(feature decision)。Massaro(1989)认为,这一模型的中心概念是原型(prototypes),原型是语言的感知单位的一个汇总描述,包含了各种区别性特征的结合。原型的特征相当于某个范畴成员应有的理想值。这些特征的真正形式可能不为人知,但是这些原型的记忆描写必须与言语信号的感知描写相匹配。匹配(compatibility)是非常必要的,因为两种描写必须能够相互联系。
整个操作过程从输入开始,不断有输入的信息得到评估、结合,并和记忆中的原型描述相匹配。然后根据匹配效果来做出决策。在言语听辨中,与言语信号的感知描写相对应的所有原型都处于被激活状态。以单个音节的感知为例,为了能够听辨出音节/bɑ/,人们的感觉系统(sensory system)把声学信号转换成各种区别性特征。在特征评估阶段,这些区别性特征根据记忆中的原型特征得到评估,以得出两者的整体匹配度。对每个特征和每个原型来说,特征评估提供了言语信号中的特征和原型中相应特征值的匹配程度的信息,这些信息用模糊真值(fuzzy truth value)来表示。模糊真值介于0到1之间,0代表完全错误的命题,1代表完全正确的命题,值的大小可以表现出匹配程度的高低。在特征结合阶段,与每一个原型对应的所有特征结合起来,提供了这个音节与原型匹配的程度。在特征决策阶段,每个有关联的原型的值都会和其他原型的值相比较,从而得到相对的匹配适宜性,并且对把该音节辨认为语音范畴中的一个成员所花费的时间比例也计算出来。模糊逻辑模型的三个操作过程可见图2.2。
图2.2 模糊逻辑模型的三个操作过程图解(引自Massaro,1989:401)
从使用模糊真值可以看出,Massaro的模型强调的是匹配的连续性,而不是有无的问题。它把语音感知看成是一个和记忆中的原型特征相匹配的概率过程,以说明某些声音属性难以映现为高层次表征的原因。
2.3.2 交互式的感知模型
自下而上和自上而下交互式的言语感知模型主要有两种:交股理论(cohort theory)和轨迹模型(trace model)。它们和听觉的词辨认有关,旨在描述音素辨认和词辨认的交互作用,关注有意义的话语,而不是无意义的音节(桂诗春,2000)。
2.3.2.1 交股理论
交股理论是由Marslen-Wilson和他的同事们提出来的,主要用来解释听觉词汇辨认。他们注意到听觉词汇辨认有两个特点:①在对词汇进行辨认的过程中,听者大概在单词开始的200~250毫秒(ms)内可以快速辨认出该单词;②听者对一个单词的辨认点(recognition point,一个单词与其他候补单词能够分辨开的那一点)很敏感。因此,他们认为有必要用词汇提取模式来解释听觉词汇的辨认。交股理论便应运而生。
交股理论认为听觉词汇辨认过程有三个基本功能——词汇提取、词汇选择和词汇结合,这三个功能分别对应于辨认过程的三个阶段(Marslen-Wilson,1987)。在第一阶段,基于对输入的声学—语音信息的分析,一组候选词被激活,这组词的集合被称为“词的起始交股”(the word initial cohort)。在这一阶段,候选词项按照严格的自上而下的方式被激活。在第二阶段,交股中的一个候选词被选取。与第一个阶段不同,在这个阶段,所有有利于目标词选择的信息都被运用,既包括声学—语音信息,也包括高层次的信息源,如语义、句法和语篇上下文。在第三阶段,最终被选取的目标词被融合到语义和句法的上下文中(Marslen-Wilson,1990)。
早期的理论认为,所有的候选词或者完全被激活,或者根本没有被激活。Marslen-Wilson(1990)对交股理论做了修正,认为交股中候选词的被激活程度根据它们和输入的言语信号的相似度而产生变化。那些与言语信号非常相似的候选词被大大激活,而其他候选词的被激活程度降低。这样,起始交股中的部分候选词就逐步被排除掉了。排除的方式有两种:一种方式是句子的上下文把词的起始交股缩小,另一种方式是语音信息的不断增加把不合适的候选词排除。
2.3.2.2 轨迹模型
轨迹模型是McClelland和Elman(1986)提出的一个神经网络模型,由许多代表神经元或神经网络功能属性的处理单元组成。这些处理单元包括语音特征、音素和词,分属于三个不同的层面——特征层、音素层和单词层。这一模型认为在言语感知中,这三个处理层面处于活跃状态且能够相互影响。
轨迹模型是一个互动激活模型。当一个处理单元被激活且达到一定的阈限(threshold)时,它会影响在同一层面或不同层面的其他单元,这种影响具有激活(excitatory)或抑制(inhibitory)作用,可以提高或降低其他单元的被激活度(Carroll, 2000)。以鼻音为例,如果“鼻音”这个特征单元被激活并达到了要求的阈限,它就会激活与“鼻音”特征一致的特征单元(如“浊音”)、一致的音素单元(如/m/)和一致的单词(如mat);同时,它也会抑制与自己相冲突的单元,如摩擦音、音素/f/和单词fat(田延明、王淑杰,2010)。整个单元网络被称作“轨迹”(trace),是因为言语输入引起的激活模式是帮助在每个处理层面上分析输入信息的轨迹(Carroll,2000)。
轨迹模型充分反映了层面间的交互作用。不同层面间的激活可以自下而上进行,语音特征激活音素,音素随之激活单词;也可以自上而下进行,高层面的处理单元激活低层面的处理单元。
McClelland和Elman(1986)认为轨迹模型能够解释大量与言语感知有关的现象,如范畴感知、自上而下的处理模式、协同发音等。以协同发音为例,短语foolish capes和Christmas capes中的第一个单词分别以/ʃ/和/s/结尾。/ʃ/的发音部位在口腔前部,发/s/音时,双唇伸展成扁平状,整个声道缩短。它们的发音差异影响了听者对下一个词词首音素的感知(Mann & Repp,1981)。比如下一个词的词首音素是/t/还是/k/,当/ʃ/在前时,听者会听着像/t/,而当/s/在前时,听者会听着像/k/。Elman & McClelland(1988)还发现即使在第一个单词词尾音素未知、第二个单词词首音素听辨不清的情况下,听者还是能够根据存在的单词激活相应的词,从而达到对音素的辨认。这些都表明词层面可以激活音素层面,证实了自上而下的处理模式在音素辨认中的作用。
轨迹模型为很多言语感知现象提供了很好的解释,但是这并不意味着交互式模型可以取代自下而上的感知模型。在交互式感知模型中,各个层面可进行的交互类型还有些限制。例如,Connine & Clifton Jr.(1987)发现虽然单词层可以影响音素层的感知,但是句子层不会。所以,只有将自下而上模式和互动式模式结合起来才能比较全面地解释言语感知现象。