图因果表示学习在离分布泛化中的应用

《Neural Networks》:Graph Causal Representation Learning for Out-of-Distribution Generalization

【字体: 时间:2025年11月16日 来源:Neural Networks 6.3

编辑推荐:

  我们提出Vspan方法,通过跨模态学习将情绪图像与文本描述对齐到共享语义空间,利用视觉增强的提示词提升情绪检测任务性能,在三个基准数据集上显著优于现有方法。

  本文提出了一种新的方法,用于改进文本中的情绪识别任务,即分类情绪检测(CED)。该方法的核心思想是通过引入视觉信息来增强情绪检测的准确性,从而弥补传统方法在设计任务高效提示方面的不足。研究者认为,人类的情绪感知是跨模态的,这意味着在理解情绪时,无论是通过文字还是图像,大脑的某些区域会被激活。因此,通过将情绪相关的视觉信息融入文本描述中,可以更有效地捕捉情绪特征,提高情绪识别的性能。

在当前的研究中,CED任务已经被广泛探讨,研究者提出了多种传统情绪检测器以及近年来基于深度神经网络(DNN)的方法。传统的情绪检测器主要依赖于情感词典等情感资源,通过分析文本中的词汇来识别情绪类别。然而,这种方法往往局限于词级的分析,难以捕捉更复杂和细微的情绪表达。后续的基于主题的方法则认为,同一情绪类别下的文本可能具有相似的主题分布,因此可以通过引入统计或神经主题模型来学习更丰富的语义信息。尽管如此,由于训练样本的数量有限,主题分布的估计可能不够准确。

近年来,提示调优(Prompt Tuning, PT)作为一种新的微调范式,取得了令人瞩目的成果。它通过构建预定义的模板或虚拟向量作为提示,仅更新这些提示参数来提高任务性能。虽然PT方法也被应用于CED任务,但目前的研究在设计提示方面仍然存在效率低下的问题。为此,本文提出了一种新的方法,即视觉提示引导的情绪检测器(VisPrefix-Emotion Detector, VisPor),旨在通过结合视觉信息和文本描述来优化提示设计,从而提升情绪识别的效果。

VisPor方法的提出基于这样一个观察:人类的情绪感知不仅仅是单一模态的,而是由多个模态共同作用的结果。例如,愤怒的文本可能引发与愤怒场景图像相同的神经反应。因此,通过从情绪图像中提取足够的信息,并将其与文本描述相结合,可以更好地捕捉情绪特征。然而,直接将情绪图像编码为提示可能会导致模态间的差距,从而影响任务的性能。为此,VisPor方法通过构建一个共享的语义空间,将抽象的文本描述与具体的图像信息进行对齐,从而减少模态间的差距。

在方法的具体实现上,VisPor分为两个阶段:跨模态前缀生成和视觉引导的前缀调优。在第一个阶段,研究者为每个情绪类别设置一个文本描述,并通过计算类别级别的文本-图像相似性来筛选高质量的情绪图像。这一过程使用了预训练的CLIP模型,该模型能够有效地将文本和图像映射到一个共享的语义空间中。随后,这些图像与文本描述进行配对,并通过进一步的微调来构建更准确的共享语义空间。在第二个阶段,研究者将生成的前缀注入到基于Transformer的情绪检测器的每个自注意力层中,从而增强模型对情绪特征的捕捉能力。最终,通过仅优化前缀参数和一个额外的分类器,模型能够在情绪检测任务上获得更优的性能。

在实验设置方面,本文在三个公开的英文数据集上评估了VisPor方法及其对比方法。这些数据集包括Isear数据集、Tec数据集和Carer数据集。Isear数据集包含7,666个样本,这些样本由约1,000名参与者手动标注为七种情绪。Tec数据集由Mohammad(2012)提出,包含约19,000名用户发布的21,051条推文,这些推文是通过搜索与六种情绪相关的标签来收集的。Carer数据集则由Saravia等人(2018)提出,但其具体细节未在文中详细说明。实验结果显示,VisPor方法在这些数据集上的表现显著优于现有的最先进方法(SOTA),表明该方法在提升情绪识别准确性方面具有明显的优势。

此外,本文还探讨了相关的研究工作,包括提示调优、分类情绪检测以及多模态情绪识别。这些研究为本文的方法提供了理论基础和技术支持。例如,提示调优方法在自然语言处理(NLP)任务中取得了良好的效果,而多模态情绪识别研究则强调了视觉信息在情绪理解中的重要性。因此,VisPor方法在设计上结合了这些领域的研究成果,旨在通过跨模态的信息融合来提升情绪识别的性能。

本文的研究结果表明,通过引入视觉信息,可以有效弥补传统方法在情绪识别任务上的不足。同时,VisPor方法在实验中表现出色,验证了其在实际应用中的有效性。这些成果不仅有助于推动情绪识别技术的发展,也为其他相关任务提供了新的思路和方法。未来的研究可以进一步探索如何在更大规模的数据集上应用VisPor方法,以及如何结合更多的模态信息来提升情绪识别的准确性。此外,还可以研究如何优化前缀的设计,使其更适应不同的情绪识别任务,从而提高模型的泛化能力和应用范围。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号