通过深度学习结合阿育吠陀文本,提升资源匮乏环境下的梵语-印地语翻译质量
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Enhancing Low-Resource Sanskrit-Hindi Translation through Deep Learning with Ayurvedic Text
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本研究针对梵医典籍英汉机器翻译难题,构建混合平行语料库,分别训练基于Transformer和RNN的NMT模型。实验表明,Transformer模型在BLEU-4指标上达到48.1%,单语素得分56.86%,有效提升专业术语翻译精度。
摘要
机器翻译(MT)领域对神经机器翻译(NMT)表现出浓厚的兴趣,因为NMT能够在广泛的输入和输出短语长度范围内持续处理数据。NMT系统采用了先进的注意力机制,能够专注于输入句子中的特定部分,而无需为每个输入句子获取整个向量。虽然这种神经方法通过解决长期依赖性问题并使上下文分析更加容易实现,从而提升了翻译质量,但它也需要一个足够的平行语料库来进行训练,而在资源有限的方言地区这颇具挑战性。本研究的主要目标是解决使用神经机器翻译(NMT)翻译阿育吠陀文本时所遇到的特殊难题。阿育吠陀文本由于其专业词汇和领域特定术语而具有独特的挑战性,因此需要采用定制化的方法来实现准确且有意义的翻译。为了构建一个可靠的梵语-印地语神经机器翻译系统,本研究利用了一个手工创建的平行语料库,其中包含了阿育吠陀文本和通用领域文本。借助这个语料库,构建了两个NMT模型:一个基于注意力的Transformer模型(NMT2)和一个基于注意力的编码器-解码器循环神经网络(NMT1)。这些模型整合了深度神经网络技术,以优化翻译过程并克服梵语训练数据有限和语法结构复杂的限制。在梵语到印地语的翻译中,基于Transformer的方法获得了48.1%的平均BLEU分数和56.86%的单词BLEU分数。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号