一种具有跨模态对齐功能的多模态语义融合网络,用于多模态情感分析
《ACM Transactions on Multimedia Computing, Communications, and Applications》:A Multimodal Semantic Fusion Network with Cross-Modal Alignment for Multimodal Sentiment Analysis
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
多模态情感分析中,针对现有方法未充分挖掘跨模态特征交互且易受噪声干扰的问题,本文提出基于门控注意力机制与图卷积的多模态语义融合网络(MSFN)。该模型通过门控机制纠正跨模态特征对齐偏差,并利用图卷积建模特征间复杂交互,同时整合隐式情感语义提升分析可靠性,实验验证其优于基线方法。
摘要
用户生成的多模态数据可以为情感分析任务提供强有力的情感线索。现有研究通过各种多模态融合方法对不同模态中的共同情感特征进行了对齐。然而,这些方法存在一定的局限性:(1)以往的研究仅对齐了图像和文本之间的共同情感特征,而没有充分探索这些特征之间的相互作用,从而导致分析结果不够理想。(2)图像和文本中的冗余噪声增加了跨模态对齐过程中特征错位的风险。为了解决这些问题,我们提出了一种多模态语义融合网络(MSFN),用于深入探索图像和文本之间的语义关系,以实现多模态情感分析(MSA)。具体来说,我们使用门控注意力机制来对齐与情感相关的图像区域特征和文本词汇特征。随后,我们利用图卷积网络来建模这些特征之间的相互作用,以获得明确的情感语义。所提出的门控注意力机制通过门控机制纠正了跨模态对齐过程中的潜在特征错位问题。此外,考虑到并非所有的图像-文本对都具有明确对应的情感特征,我们将隐式情感语义整合到模型中,以提高分析的可靠性。在基准数据集上的实验结果表明,与我们提出的模型相比,基线模型的效果较差。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号