
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于形态句法信息的波斯语共指消解算法:结合自适应剪枝与全局上下文聚合技术
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Morphosyntactically-Informed Coreference Resolution for Persian with Adaptive Pruning and Global Context Aggregation
【字体: 大 中 小 】 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本研究提出首个波斯语端到端核心指代消解系统,融合ParsBERT与自适应阈值、形态句法注意力等创新模块,在 Mehr和RCDAT数据集上分别达到76.16%和74.20%的F1值,较传统方法提升4.03个百分点。
在波斯语中,共指消解(coreference resolution)是自然语言理解(natural language understanding)任务中的关键环节。由于波斯语具有省略主语(pro-drop)的倾向、灵活的词序结构以及复杂的形态句法一致系统,这一任务面临着独特的挑战。本研究首次提出了一种端到端(end-to-end, e2e)的神经网络架构,用于全面处理波斯语中的共指现象,涵盖代词、名词和命名实体的指代关系。该系统基于ParsBERT模型,并创新性地整合了联合提及检测与类型分类(Joint Mention Detection and Type Classification, JMDTC)、自适应先行词剪枝机制(Adaptive Antecedent Pruning Threshold, AAPT)、基于形态句法的注意力机制(Morphosyntactically-Informed Attention, MIA)以及跨段落共指分析与全局上下文聚合技术(Cross-Segment Coreference with Global Context Aggregation, CS-GCA)。通过协同优化提及检测和先行词关联过程,该系统超越了传统的流水线式处理方法,无需人工构建特征或复杂的句法分析器。在Mehr语料库上,该系统的CoNLL平均F1分数达到了76.16%,比之前的最佳成果提高了4.03个百分点。此外,该系统还表现出良好的泛化能力,在RCDAT语料库(使用乌普萨拉测试集评估)上的CoNLL平均F1分数为74.20%。这些成果为在具有类似形态句法挑战的低资源语言中实现可扩展的共指消解提供了有力支持。
生物通微信公众号
知名企业招聘