基于贝叶斯高斯混合模型的语言预测研究:揭示语义竞争对句子加工速度的影响机制

【字体: 时间:2025年06月06日 来源:Journal of Memory and Language 2.9

编辑推荐:

  本研究针对心理语言学中cloze任务(填空任务)响应语义结构难以量化的问题,创新性地结合大型语言模型(LLMs)和贝叶斯高斯混合模型(BGMMs),成功聚类RoBERTa模型生成的语义表征,首次证实语义竞争显著影响填空任务中的反应速度,为语言产生中的选择机制理论(如阈值激活假说)提供了量化分析框架。

  

在人类交流中,朋友间"接话茬"的能力常被视为默契的体现,这种预测语言走向的现象正是心理语言学研究的核心问题之一。传统填空任务(cloze task)通过统计特定词汇出现频率(cloze probability)衡量预测性,却长期忽视参与者响应中蕴含的丰富语义结构。这种语义层面的不确定性对理解语言产生中的选择机制至关重要——当人们面对"At night the old woman locked the____"这类句子时,为何多数人选择"door"而非同语义簇的"gate"或"window"?现有理论如Levelt的阈值激活模型与竞争模型对此存在争议,但缺乏量化语义竞争影响的经验证据。

为解决这一难题,Cassandra L. Jacobs团队在《Journal of Memory and Language》发表的研究中,开创性地将Transformer架构的RoBERTa模型与贝叶斯高斯混合模型(Bayesian Gaussian Mixture Models, BGMMs)相结合,构建了语义聚类分析框架。研究首先通过RoBERTa生成填空响应词的分布式语义表征,利用BGMMs对高维向量进行概率聚类,再通过两项实验系统验证了:(1)人类填空响应的语义结构可被LLM表征有效建模;(2)语义簇的统计特性与反应时间存在显著相关性。

关键技术包括:基于RoBERTa的语义嵌入提取、贝叶斯高斯混合聚类算法、以及针对填空任务设计的反应时间测量范式。实验样本来自标准化的英语填空任务数据库,涵盖不同约束强度的句子上下文。

Experiment 1A
通过分析1,089个填空响应,BGMMs成功识别出语义连贯的聚类(如"建筑入口"簇包含door/gate等)。关键发现是低约束语境下响应词分散于多个语义簇,而高约束语境集中于单一簇,证实LLMs能捕捉人类响应的语义分布模式。

Experiment 1B
采用人工评估验证聚类质量,显示BGMMs生成的语义簇与人类分类相似度达82%,显著优于传统Word2Vec方法(p<0.001),表明现代LLMs更适合建模细粒度语义关系。

Experiment 2
在速度填空任务中,发现响应时间与目标词语义簇密度呈负相关(β=-0.34, p<0.01):当目标词属于高频语义簇时(如"door"在"建筑入口"簇),即使其本身cloze probability较低,响应仍更快。这直接证明语义层面的竞争(而非仅词汇频率)影响产生速度。

结论部分指出,该研究首次实现三点突破:(1)建立可量化的语义竞争指标;(2)验证语义预测性独立于传统cloze probability影响加工速度;(3)开发的方法可扩展至失语症等语言障碍研究。特别值得注意的是,研究发现高语义预测性可能通过降低选择阈值(而非抑制竞争项)来加速产生,这为调和Levelt模型与竞争模型提供了新证据。该框架未来可应用于第二语言习得、神经退行性疾病语言特征分析等领域,标志着计算心理语言学方法论的重大进步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号