基于任务自适应预训练与数据对齐策略的Tapas模型:提升结构化数据到文本生成的忠实性

【字体: 时间:2025年08月10日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  这篇研究提出Tapas模型,通过任务自适应预训练(Task-Adaptive Pre-training)结合数据对齐策略,系统性解决数据到文本生成(Data-to-Text Generation)中的幻觉问题(Hallucination)。模型采用掩码属性恢复(MAR)、提及属性定位(MAG)、值属性映射(VAM)三重学习目标,并在微调阶段引入启发式数据对齐,在E2E和WebNLG数据集上实现SOTA的BLEU-4分数,少样本场景下性能提升达2.1%。

  

Highlight

Tapas从模型和数据双维度攻克文本生成中的"幻觉"难题:

  • 模型层面:通过任务自适应预训练(Task-Adaptive Pre-training)设计三重学习目标——掩码属性恢复(Masked Attribute Recovery, MAR)、提及属性定位(Mentioned Attribute Grounding, MAG)、值属性映射(Value Attribute Mapping, VAM),让预训练语言模型(如BART)像"结构化数据侦探"般精准捕捉表格中的关联关系。

  • 数据层面:创新性提出启发式数据对齐策略,像"数据校对员"一样清洗训练数据中结构化表格与参考文本的不一致(如遗漏"Food"属性的案例),从源头减少错误对齐。

Conclusion

本文提出的Tapas模型如同给文本生成装上了"防幻觉双保险":任务自适应预训练让模型深度理解数据结构,数据对齐策略则确保训练样本"表文一致"。实验证明其在完全监督和少样本(Few-shot)场景下均显著提升生成忠实度,为医疗报告生成、健康数据解读等生命科学领域应用提供了可靠性保障。

(注:根据要求已去除文献标识[1]和图示引用Figure 1a/b,专业术语保留英文缩写并采用/标签,如BLEU4

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号