一种具有跨模态对齐功能的多模态语义融合网络，用于多模态情感分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：A Multimodal Semantic Fusion Network with Cross-Modal Alignment for Multimodal Sentiment Analysis

【字体：大中小】 时间：2025年11月07日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　多模态情感分析中，针对现有方法未充分挖掘跨模态特征交互且易受噪声干扰的问题，本文提出基于门控注意力机制与图卷积的多模态语义融合网络（MSFN）。该模型通过门控机制纠正跨模态特征对齐偏差，并利用图卷积建模特征间复杂交互，同时整合隐式情感语义提升分析可靠性，实验验证其优于基线方法。

摘要

用户生成的多模态数据可以为情感分析任务提供强有力的情感线索。现有研究通过各种多模态融合方法对不同模态中的共同情感特征进行了对齐。然而，这些方法存在一定的局限性：（1）以往的研究仅对齐了图像和文本之间的共同情感特征，而没有充分探索这些特征之间的相互作用，从而导致分析结果不够理想。（2）图像和文本中的冗余噪声增加了跨模态对齐过程中特征错位的风险。为了解决这些问题，我们提出了一种多模态语义融合网络（MSFN），用于深入探索图像和文本之间的语义关系，以实现多模态情感分析（MSA）。具体来说，我们使用门控注意力机制来对齐与情感相关的图像区域特征和文本词汇特征。随后，我们利用图卷积网络来建模这些特征之间的相互作用，以获得明确的情感语义。所提出的门控注意力机制通过门控机制纠正了跨模态对齐过程中的潜在特征错位问题。此外，考虑到并非所有的图像-文本对都具有明确对应的情感特征，我们将隐式情感语义整合到模型中，以提高分析的可靠性。在基准数据集上的实验结果表明，与我们提出的模型相比，基线模型的效果较差。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号