越多越开心:利用跨模态技术从文本中检测分类情感

《Neural Networks》:The more, the merrier: Detecting Categorical Emotions from Texts with Cross-modal Insights

【字体: 时间:2025年11月18日 来源:Neural Networks 6.3

编辑推荐:

  跨模态视觉增强提示方法提升情感分类检测性能,通过构建共享语义空间对齐文本描述与情感图像,设计视觉引导的提示模板,并注入Transformer自注意力层优化分类效果。在三个基准数据集上实验表明该方法显著优于现有SOTA基线。

  在情感识别的研究领域,情感检测任务一直是一个重要的方向。特别是Categorical Emotion Detection(CED)任务,其目标是识别文本中所表达的情感类别。随着自然语言处理技术的发展,Prompt Tuning(PT)作为一种新兴的微调方法,逐渐被应用于情感检测领域。然而,当前的情感检测模型在设计高效且适合任务的提示时仍面临诸多挑战。本文提出了一种名为VisPor的新型情感检测方法,该方法通过引入视觉信息,使提示更具情感特异性,并有效缓解了模态之间的差距问题。

情感是人类行为和决策的重要驱动力,它不仅影响个体的思维方式,还深刻地塑造着社会互动和人际关系。文本数据作为情感表达的重要载体,为研究人类情感提供了丰富的资源。近年来,随着社交媒体的迅速发展,人们可以通过Twitter、Reddit等平台更自由地交流和表达观点,这为基于数据驱动的情感研究奠定了坚实的基础。然而,这些表达中也包含了一些非法或极端的观点,往往伴随着负面情绪。因此,如何从大规模文本数据中准确识别和检测情感,成为了当前研究的重要课题。

在过去的几十年里,情感检测任务受到了广泛关注。传统的研究方法主要依赖于情感词典等情感资源,通过提取文本中的情感词汇来识别情感类别。这种方法虽然在一定程度上有效,但往往难以捕捉文本中更为复杂和细微的情感特征。随后,研究者们提出了基于主题驱动的方法,假设同一情感类别下的文本可能具有相似的主题分布,并通过统计或神经主题模型(NTM)来学习互补的情感语义。然而,由于训练样本规模有限,主题分布的估计常常不够准确,从而影响了模型的整体性能。

近年来,Prompt Tuning作为一种新颖的微调范式,因其在多种自然语言处理任务中的出色表现而受到关注。PT方法通过构建预定义的模板或虚拟向量作为提示,仅更新这些参数以提升任务性能。尽管PT已被应用于情感检测任务,但其在设计提示方面仍然存在效率不足的问题。因此,如何构建更有效的情感提示,成为了研究者们关注的重点。

我们注意到,人类的感知过程具有跨模态的特性。具体来说,当通过文本感知情感时,大脑皮层中会激活与通过其他模态感知情感相同的神经元。例如,愤怒的文本可能会引发与愤怒场景图像相似的神经反应。这一发现促使我们从情感图像中获取更多信息,从而丰富情感提示的表达。然而,直接将情感图像编码为提示并应用于情感文本可能会导致模态之间的差距,从而影响任务的性能。

为了解决这一问题,我们提出了一个创新的方法,即通过联合利用情感图像和文本描述,构建一个共享的语义空间。这种方法基于人类情感理解的机制,即情感的理解来源于抽象概念和具体概念的相互作用。通过在两个模态之间进行充分的交互,我们可以将视觉信息有效地注入到情感文本描述中。然后,我们将这些嵌入后的文本描述作为互补的视觉增强提示,从而更好地适应情感检测任务。

基于上述思路,我们提出了一个名为VisPor的新情感检测方法。该方法分为两个阶段:跨模态提示生成和视觉引导的提示微调。在第一个阶段,我们利用辅助的视觉信息生成跨模态提示。具体来说,我们为每个情感类别设置一个文本描述,并通过预训练的CLIP模型计算类别级的文本-图像相似性,从而筛选出高质量的情感图像。这些图像与文本描述进行配对,我们利用这些手动对齐的对来通过微调CLIP模型构建共享的语义空间。编码后的文本描述富含视觉信息,被用作跨模态情感提示,从而自然地适应情感检测任务。

在第二个阶段,我们将在Transformer基础上构建的情感检测模型中注入所获得的提示。通过仅优化提示和一个额外的分类器的参数,我们能够训练出性能更优的情感检测模型。这种方法不仅提高了情感检测的准确性,还减少了对大量标注数据的依赖,从而提升了模型的泛化能力。

本文的主要贡献包括以下几个方面:首先,我们提出了VisPor方法,通过在Prompt Tuning的框架中引入丰富的视觉信息,解决了情感检测任务中的模态差距问题。其次,我们通过在共享语义空间中对情感类别文本描述和相应图像进行对齐,进一步提升了模型的情感识别能力。最后,我们在三个公开的情感检测数据集上进行了广泛的实验,实验结果表明,我们的方法在多个指标上均优于现有的最先进的基线方法。

在相关工作的部分,我们主要回顾了当前关于Prompt Tuning、情感检测以及多模态情感识别的研究。Prompt Tuning作为一种新兴的微调方法,已经在多个自然语言处理任务中展现出良好的性能。情感检测任务的研究经历了从基于情感词典的方法到基于主题驱动的方法,再到近年来的Prompt Tuning方法的发展过程。而多模态情感识别则关注如何结合文本和图像等不同模态的信息,以更全面地理解情感。

在方法论部分,我们首先简要描述了CED任务的定义。然后,我们详细介绍了VisPor方法及其各个组成部分。为了便于理解,我们对一些重要的符号进行了总结,并列在表1中。CED任务的目标是通过训练模型,使其能够识别文本中所包含的情感类别。每个训练样本由文本和对应的类别标签组成。通过引入视觉信息,VisPor方法能够更有效地捕捉文本中的情感特征,并提升模型的整体性能。

在实验设置部分,我们选择了三个公开的英文数据集进行评估。这些数据集包括Isear、Tec和Carer。Isear数据集包含7,666个样本,这些样本由大约1,000名参与者手动标注,涵盖了七种情感类别。Tec数据集来自Mohammad(2012),包含21,051条推文,这些推文由大约19,000名不同用户发布,并通过与六种情感相关的标签进行收集。Carer数据集则由Saravia等人(2018)提出,为情感检测提供了额外的资源。

实验结果显示,VisPor方法在多个指标上均优于现有的方法。这表明,通过引入视觉信息,我们的方法能够更有效地捕捉文本中的情感特征,并提升模型的性能。此外,我们的方法在处理跨模态数据时表现出了良好的适应性和泛化能力,这对于实际应用中的情感识别任务具有重要意义。

最后,在结论部分,我们总结了本文的研究成果。VisPor方法通过重新审视情感检测任务,从跨模态学习的角度出发,设计了一种能够有效缓解模态差距的提示方法。我们通过构建共享的语义空间,使模型能够更自然地利用视觉信息,从而提升情感识别的准确性。实验结果进一步验证了我们的方法在多个情感检测任务中的优越性,为未来的研究提供了新的思路和方法。

在作者贡献声明中,我们列出了三位作者的具体贡献。Changrong Min负责撰写和编辑论文,Aimin Wang负责数据整理,而Ximing Li则提供了资源并负责项目管理。此外,我们声明本文的作者没有已知的潜在利益冲突。最后,我们感谢国家自然科学基金(NSFC)项目(编号:62276113)对本研究的资助和支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号