综述:脊椎动物发声的共振峰分析:成就、陷阱与前景

【字体: 时间:2025年04月08日 来源:BMC Biology 4.4

编辑推荐:

  本文围绕脊椎动物发声的共振峰展开综述。源 - 滤波器理论(source - filter theory)应用于动物发声研究成果颇丰,如揭示共振峰在动物交流中的多种功能等。但研究也存在诸多陷阱,像测量方法不适配等。同时,未来研究在多方面极具前景。

  

引言

共振峰(formants)是声道中振动空气的共振现象,在语音产生时会放大特定频率。过去五十年,人类共振峰研究备受关注,而近二十年,非人类动物发声的共振峰研究呈爆发式增长。研究发现,共振峰在众多脊椎动物(包括爬行动物、鸟类和哺乳动物)中普遍存在且能被感知,这表明其可能是大多数现存羊膜动物发声的基本特征。
共振峰在动物交流中具有重要作用,它能提供身份、体型和情感状态等声学线索,且这些功能独立于其他声学线索(如音高)。在择偶和优势竞争中,基于共振峰的体型线索会影响动物的适应性,促使许多物种进化出调节共振峰的生理和解剖特征。
不过,共振峰研究也存在一些问题。共振峰是二阶线索,依赖合适的声源才能被准确检测。而且存在 “伪共振峰”,会干扰判断。此外,不同物种发声的物理机制尚不明确,增加了研究的复杂性。

发声的源 - 滤波器理论

源 - 滤波器理论是理解脊椎动物发声的核心框架,最初用于解释人类言语和歌唱,后被广泛应用于多种动物。该理论认为,生物体的发声输出是由声源和滤波器两个独立物理系统组合而成。
声源通常是哺乳动物、爬行动物和两栖动物的喉部,以及鸟类的鸣管。肺部的气流使喉部或鸣管的组织振动,产生压力脉冲,形成声源信号。当组织振动呈周期性时,振动频率即为基频(),它是感知音高的物理关联。声源信号不仅包含基频,还有其整数倍的谐波,同时也包含由气流湍流产生的非周期性噪声。
滤波器则由连接声源器官与外界环境的呼吸道组成,包括咽喉、口腔和鼻腔等。声道内的空气能以多个共振频率振动,这些共振频率就是共振峰。共振峰对声源信号进行滤波,优先传输与共振峰频率匹配的能量,抑制其他频率的能量,从而塑造输出声音。与声源信号的谐波不同,共振峰相对独立,其频率可通过多种发音动作改变,但整体受声道长度制约,声道越长,共振峰频率越低且间距越密。
在感知方面,脊椎动物听觉系统能感知声源和滤波器的关键特征。对于声源和基频,人们对 “音高” 的感知与基频密切相关,但二者并不完全相同。而对于共振峰感知,目前没有专门的英文词汇区分其物理属性和感知属性,感知上共振峰频率的变化会导致 “音色” 改变。

共振峰频率

共振峰可定义为声道的共振、发声信号频谱中由声道共振产生的峰值或由声道共振引起的频谱峰值的感知对应物,其中第一种定义最为常用。1894 年,Ludimar Hermann 将 “共振峰” 引入语音研究,随后其在语音科学中的重要性逐渐被认识。在人类语音中,共振峰频率对创造语音多样性起着关键作用,例如不同元音的发音就与共振峰的相对间距密切相关,而且共振峰还在辅音编码中发挥作用。
在成人的正常言语中,较低且稳定的基频形成的密集谐波结构有助于共振峰的感知。尽管基频与共振峰频率测量或感知密切相关,但源 - 滤波器理论的一个关键原则是声源和滤波器频率相对独立。通过在氦氧混合气体(heliox)环境中发声的实验,可以验证这一独立性。不过,小鼠等啮齿动物的超声哨声和人类唇哨声是例外,它们的声源与声道共振紧密耦合,不适用标准的源 - 滤波器理论。

成就

20 世纪 80 年代末 90 年代初,共振峰在非人类动物发声交流中的重要性开始被认识,源 - 滤波器理论的应用彻底改变了生物声学的研究面貌。
研究发现,共振峰与声道长度及体型密切相关,是动物体型的可靠声学预测指标。在许多哺乳动物中,整体共振峰间距与声道长度呈反比,并且与身体其他部分成比例生长。通过对赤鹿等动物的回放实验证实,在竞争和择偶情境中,动物能感知共振峰频率并将其作为体型线索。在人类中,共振峰间距对身高的解释力比基频更强,且在判断体型等特征时,人们会优先考虑共振峰信息。
此外,研究还揭示了共振峰在欺骗性信号中的作用。许多物种为了夸大体型,进化出了降低共振峰的解剖适应性特征,如一些哺乳动物雄性的下降且可移动的喉部、鸟类的气管延长以及非人类灵长类动物的气囊等。
在语音起源和发音前体的比较研究中,共振峰也发挥了重要作用。传统观点认为人类喉部位置较低等特征是为了满足语音清晰度的需求,但现在发现这些特征可能更多地与通过调节共振峰来夸大体型有关,而且欺骗性地操纵共振峰频率可能在语音控制的进化中起到了作用。
源 - 滤波器理论将发声器官置于发声交流研究的核心,使研究者能够从生理机制角度理解发声信号,增强了预测和解释能力。该理论还推动了对人类非语言发声的研究,帮助人们更好地理解人类声音如何编码生物和社会相关信息,以及这对语音进化的影响。

陷阱

共振峰研究起源于语音科学,分析方法最初是为人类语音设计的,直接应用于其他物种的发声分析可能会出现问题。
线性预测编码(LPC)是常用的测量共振峰频率和带宽的方法,但该方法的默认参数通常是为人类成年人设置的,应用于动物时需要根据动物的声道长度等信息手动调整。如果不进行调整,直接使用标准参数分析动物发声,会产生误差,尤其是在音频质量较差或动物声道与人类差异较大时。而且 LPC 对声源特征敏感,当基频较高时,LPC 更可能追踪谐波而非声道共振,导致将谐波误判为共振峰。
除了测量方法的问题,术语混淆也会带来困扰。基频有时会被错误地称为共振峰,而且在滤波声音中,最高振幅的频率可能是基频、谐波或共振峰频率,混淆这些概念会导致对声道灵活性的错误判断。
在检测共振峰时,手动检查频谱图虽然重要,但也存在困难。非语言人类和动物发声中的源调制和非线性声学现象可能会产生类似共振峰的伪像,如频率调制(FM)和幅度调制(AM)产生的边带、确定性混沌产生的宽带噪声等,都可能被误判为共振峰。此外,一些动物的声道结构复杂,包含侧支(如鼻腔、气囊等),这增加了共振峰分析的复杂性,使预测 LPC 中的极点数量变得困难。

生物声学中共振峰分析的前景

尽管共振峰研究存在诸多陷阱,但如果能够避免这些问题,其在动物发声研究中仍具有很大的潜力。
鸟类是很好的研究对象,许多鸣禽的鸣管是双器官,能产生两个独立频率,但这也可能产生 “伪共振峰”。在研究鸟类共振峰的信号作用时,需要考虑其特定的解剖结构,鸟类的气管长度会影响声道长度和共振峰频率,这也解释了为什么气管延长在鸟类中进化而在其他脊椎动物中没有。
在跨物种比较中,需要考虑不同物种声道形态和体型的差异,进行标准化处理。简单的方法是将观察到的共振峰频率除以估计的缩放常数,更复杂的方法是对同一发声者的元音进行回归分析。通过标准化处理,可以将不同物种的共振峰测量值转换为相对值,映射到二维的空间中,与人类元音空间进行比较,从而研究动物的发声模式和功能。
研究预测,不同情感的叫声可能具有特定的共振峰模式,如 affiliative 叫声可能具有较高的,而攻击性叫声可能具有较低的。通过在标准化的空间中绘制不同物种的顺从和攻击性叫声的共振峰,可以验证这一假设。
此外,声源频谱的密度会影响共振峰的感知,如果声源的周期性过高,共振峰可能无法被激发或分辨,因此具有重要社交或生物信息的叫声可能具有密集的声源频谱。同时,产生较低的基频虽然有利于突出共振峰,但可能会牺牲声音强度,动物可能会通过多样化的叫声类型、组合 “音节” 或双声发声等方式来解决这一权衡问题。
声源和滤波器的相互作用也会影响叫声的声学结构,如声源周期性与共振峰模式对齐(共振峰调谐)可能会增强振幅,一些复杂叫声可能是由 “正常” 有声源和气动哨声组合而成,这一 “哨声假设” 可以通过氦氧实验进行验证。许多未被充分研究的发声系统形态适应特征,也可以基于源 - 滤波器理论进行理解。

结论

源 - 滤波器理论最初是为人类语音研究而发展的,如今已被扩展到非人类脊椎动物发声研究中,为理解动物交流系统带来了新的视角和丰富的认识。然而,在将该理论应用于特定非人类动物物种的发声分析时,需要充分理解并调整相关原则,否则可能会产生严重错误。
过去二十年的研究表明,避免这些风险后,源 - 滤波器理论在研究从青蛙、鸟类到蝙蝠、鲸鱼等多种物种的交流和发声进化方面具有强大的力量。在灵长类动物交流研究中,对共振峰的生物声学比较研究有助于深入了解人类语音和歌唱以及非语言发声(如笑声、哭声、尖叫等)的进化。
总之,充分理解和正确应用发声的声学原理,为未来研究开辟了令人兴奋且大部分尚未探索的领域,有望进一步丰富和深化人们对脊椎动物发声交流及其进化的认识。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号