编辑推荐:
为解决日本医疗设备术语与国际术语映射时人工翻译工作量大、易出错的问题,研究人员开展了针对国际医疗器械监管机构论坛不良事件术语(IMDRF-AET)英日翻译最优模型的研究。结果显示 GPT-4 表现最佳,这对提高术语映射系统效率意义重大。
在医疗领域,医疗器械的安全使用至关重要。在日本,按规定需向政府提交医疗器械故障报告,为推动报告术语标准化,日本医疗器械协会(JFMDA)发布了不良事件术语集。国际上,国际医疗器械监管机构论坛(IMDRF)的不良事件术语(AET)为全球提供了统一的英文术语标准。然而,JFMDA 术语集与 IMDRF-AET 之间的映射工作目前依赖人工翻译,每年更新时,由于涉及数千个术语,不仅耗费大量人力和时间,还容易出现映射错误和不一致的情况 。
为解决这些问题,来自北海道科学大学健康科学学院(Faculty of Health Sciences, Hokkaido University of Science)、北海道信息大学医学管理与信息学院(Faculty of Medical Management and Informatics, Hokkaido Information University)和香川大学医院医学信息学系(Department of medical informatics, Kagawa University Hospital)的研究人员,开展了关于 IMDRF-AET 英日翻译最优模型的研究。该研究成果发表在《BMC Medical Informatics and Decision Making》杂志上。
研究人员采用了多种技术方法。首先,从日本厚生劳动省发布的 IMDRF-AET 中随机选取 50 个句子及其定义,获取双语数据。然后,使用了多种预训练翻译模型,包括谷歌翻译(Google Translation)、多语言 T5(mT5)、多语言双向自回归变换器(mBART50)、Many-to-Many 多语言翻译模型(m2m100)、生成式预训练变换器 3(GPT-3)、ChatGPT 和 GPT-4 等 。对于这些模型的翻译结果,研究人员从定量和定性两个方面进行评估。定量评估采用双语评估替补(BLEU)、字符错误率(CER)、词错误率(WER)、带明确排序的翻译评估指标(METEOR)和基于变换器的双向编码器表征(BERT)分数等指标;定性评估则由四位不同领域的专家进行可视化评估,判断翻译语义与原文的一致性 。
研究结果如下:
- 评估者间一致性:计算出六对评估者之间的 κ 值在 0.44 - 0.59 之间,渐近检验得出 p<0.001,平均 κ 值为 0.51,表明评估者之间有中等程度的一致性。
- 各模型得分:在定量和定性评估中,GPT-4 均表现最佳。ChatGPT 在定性评估中能力与 GPT-4 相当,但定量分数较低。其他模型如 mBART50 在 CER 上仅次于 GPT-4,但在其他评估中表现较差;m2m100 在定量和定性评估中表现都不佳;谷歌翻译在 BLEU 和 BERT 分数上排名第二;mT5 在 BLEU 和 WER 上排名第三,但可视化评估排名最低;GPT-3 在定性评估中排名第四,BLEU 分数较低。
- 翻译实例分析:通过具体翻译实例发现,GPT-4 能准确翻译一些医学术语,如 “angioedema” 翻译为 “血管性浮腫”,而其他模型存在错误翻译、音译或未翻译等问题。同时,GPT-4 也存在一些问题,例如对 “regionally-limited” 的误译,以及在长句翻译中因果关系的错误。
研究结论和讨论部分指出,GPT-4 是翻译 IMDRF-AET 的最优模型,但其仍存在一些局限性,如对特定术语的误译和长句因果关系的错误。为降低风险,建议在使用 GPT-4 翻译关键医疗文档时加入人工审核和校对环节。虽然研究存在术语集版本过时、术语类别分布不均衡以及 GPT 版本准确性可能变化等局限性,但该研究不仅揭示了当前基于大语言模型(LLM)的机器翻译的能力和局限,也为医学领域翻译技术的未来研究开辟了新方向,对提高医疗器械不良事件术语翻译效率和术语映射系统的准确性具有重要意义,有望推动国际医疗器械术语的统一和规范化进程。