从单模态到多模态:一个用于生成高质量多模态情感闲聊对话的框架

《Science China-Information Sciences》:From unimodal to multimodal: a framework for generating high-quality multimodal emotional chit-chat dialogue

【字体: 时间:2025年10月04日 来源:Science China-Information Sciences 7.6

编辑推荐:

  大视觉语言模型(LVLMs)在客观图像描述上表现优异,但主观多模态情感对话(MEC)能力不足,主要因高质量MEC数据稀缺。提出的U2MEC框架通过对抗LLM生成MEC对话数据,构建23k条高质量中文MEC对话数据集MEC-chat及评估基准MECBench,实验验证其显著提升LVLMs的MEC性能。

  

摘要

大型语言模型(LLMs)在任务导向型和闲聊型对话中都展现出了强大的能力。然而,当将这些模型扩展到大型视觉语言模型(LVLMs)时,我们发现LVLMs在客观描述图像内容方面表现出色,但在主观的多模态情感闲聊(MEC)对话能力上存在不足,我们认为这是由于高质量MEC数据的稀缺所致。收集和标注高质量的MEC对话数据是有帮助的,但这些过程的成本使得大规模数据的获取变得具有挑战性。为了解决这一难题,我们引入了一个基于对抗性LLM的数据增强框架U2MEC,该框架能够从单模态数据生成MEC对话数据。我们的框架借鉴了用户在多模态对话中的行为模式,包括“用图像证明文本”和“用文本解释图像”两种模式,从而使生成过程更符合人类的习惯。利用U2MEC,我们生成并构建了一个名为MEC-chat的中文指令数据集,其中包含23,000条高质量的MEC对话。我们还提出了一个名为MECBench的评估基准,用于评估LVLMs的闲聊能力。实证结果证实,在MEC-chat数据集上对LVLMs进行微调后,其在MECBench评估和人类评估中的表现均有显著提升。

大型语言模型(LLMs)在任务导向型和闲聊型对话中都展现出了强大的能力。然而,当将这些模型扩展到大型视觉语言模型(LVLMs)时,我们发现LVLMs在客观描述图像内容方面表现出色,但在主观的多模态情感闲聊(MEC)对话能力上存在不足,我们认为这是由于高质量MEC数据的稀缺所致。收集和标注高质量的MEC对话数据是有帮助的,但这些过程的成本使得大规模数据的获取变得具有挑战性。为了解决这一难题,我们引入了一个基于对抗性LLM的数据增强框架U2MEC,该框架能够从单模态数据生成MEC对话数据。我们的框架借鉴了用户在多模态对话中的行为模式,包括“用图像证明文本”和“用文本解释图像”两种模式,从而使生成过程更符合人类的习惯。利用U2MEC,我们生成并构建了一个名为MEC-chat的中文指令数据集,其中包含23,000条高质量的MEC对话。我们还提出了一个名为MECBench的评估基准,用于评估LVLMs的闲聊能力。实证结果证实,在MEC-chat数据集上对LVLMs进行微调后,其在MECBench评估和人类评估中的表现均有显著提升。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号