
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于任务自适应预训练与数据对齐策略的Tapas模型:提升结构化数据到文本生成的忠实性
【字体: 大 中 小 】 时间:2025年08月10日 来源:Knowledge-Based Systems 7.6
编辑推荐:
这篇研究提出Tapas模型,通过任务自适应预训练(Task-Adaptive Pre-training)结合数据对齐策略,系统性解决数据到文本生成(Data-to-Text Generation)中的幻觉问题(Hallucination)。模型采用掩码属性恢复(MAR)、提及属性定位(MAG)、值属性映射(VAM)三重学习目标,并在微调阶段引入启发式数据对齐,在E2E和WebNLG数据集上实现SOTA的BLEU-4分数,少样本场景下性能提升达2.1%。
Highlight
Tapas从模型和数据双维度攻克文本生成中的"幻觉"难题:
模型层面:通过任务自适应预训练(Task-Adaptive Pre-training)设计三重学习目标——掩码属性恢复(Masked Attribute Recovery, MAR)、提及属性定位(Mentioned Attribute Grounding, MAG)、值属性映射(Value Attribute Mapping, VAM),让预训练语言模型(如BART)像"结构化数据侦探"般精准捕捉表格中的关联关系。
数据层面:创新性提出启发式数据对齐策略,像"数据校对员"一样清洗训练数据中结构化表格与参考文本的不一致(如遗漏"Food"属性的案例),从源头减少错误对齐。
Conclusion
本文提出的Tapas模型如同给文本生成装上了"防幻觉双保险":任务自适应预训练让模型深度理解数据结构,数据对齐策略则确保训练样本"表文一致"。实验证明其在完全监督和少样本(Few-shot)场景下均显著提升生成忠实度,为医疗报告生成、健康数据解读等生命科学领域应用提供了可靠性保障。
(注:根据要求已去除文献标识[1]和图示引用Figure 1a/b,专业术语保留英文缩写并采用/标签,如BLEU4)
生物通微信公众号
知名企业招聘