基于任务自适应预训练与数据对齐策略的Tapas模型：提升结构化数据到文本生成的忠实性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月10日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　这篇研究提出Tapas模型，通过任务自适应预训练（Task-Adaptive Pre-training）结合数据对齐策略，系统性解决数据到文本生成（Data-to-Text Generation）中的幻觉问题（Hallucination）。模型采用掩码属性恢复（MAR）、提及属性定位（MAG）、值属性映射（VAM）三重学习目标，并在微调阶段引入启发式数据对齐，在E2E和WebNLG数据集上实现SOTA的BLEU-4分数，少样本场景下性能提升达2.1%。

Highlight

Tapas从模型和数据双维度攻克文本生成中的"幻觉"难题：

模型层面：通过任务自适应预训练（Task-Adaptive Pre-training）设计三重学习目标——掩码属性恢复（Masked Attribute Recovery, MAR）、提及属性定位（Mentioned Attribute Grounding, MAG）、值属性映射（Value Attribute Mapping, VAM），让预训练语言模型（如BART）像"结构化数据侦探"般精准捕捉表格中的关联关系。
数据层面：创新性提出启发式数据对齐策略，像"数据校对员"一样清洗训练数据中结构化表格与参考文本的不一致（如遗漏"Food"属性的案例），从源头减少错误对齐。

Conclusion

本文提出的Tapas模型如同给文本生成装上了"防幻觉双保险"：任务自适应预训练让模型深度理解数据结构，数据对齐策略则确保训练样本"表文一致"。实验证明其在完全监督和少样本（Few-shot）场景下均显著提升生成忠实度，为医疗报告生成、健康数据解读等生命科学领域应用提供了可靠性保障。

（注：根据要求已去除文献标识[1]和图示引用Figure 1a/b，专业术语保留英文缩写并采用_{/^{标签，如BLEU₄）}}

热点排行

新闻专题

联系信箱：

粤ICP备09063491号