多模态交互引导融合网络(MIGF-Net):基于视觉-评论语义协同的图像美学评估新范式

【字体: 时间:2025年09月07日 来源:Pattern Recognition 7.6

编辑推荐:

  【编辑推荐】本文提出多模态交互引导融合网络(MIGF-Net),创新性地通过视觉语义融合模块提取图像主题特征,结合预训练模型解决评论缺失问题,并设计双流交互引导融合模块(Dual-Stream Interaction-Guided Fusion)挖掘图像与评论的深层语义关联。实验表明该模型在AVA和AADB数据集上超越现有方法,为图像美学评估(IAA)领域提供新思路。

  

亮点

• 提出多模态交互引导融合网络(MIGF-Net),通过挖掘图像信息与评论信息的深层语义关联进行图像美学评估(IAA),不仅通过视觉特征与主题特征的融合模块细化图像语义特征,还通过高效融合块强化双模态间的交互语义特征。

• 首次在多模态美学评估领域解决评论缺失问题,同时扩展主题类型和多样性,确保多模态特征的完整性,有利于模型泛化。

• 针对高参数量化模型问题,设计判别器结构优化模型,将多模态美学评估网络作为生成器,提升整体性能。

方法

所提出的MIGF-Net框架包含四个阶段:数据准备、特征提取、多模态特征融合和模型优化。在数据准备阶段,对于含文本信息的数据集,直接输入图像及其关联评论;对于缺失评论的数据集,采用预训练开源模型CLIP-Interrogator生成描述性文本。

AVA数据集

该数据集包含255,502张图像,其中229,951张用于训练集,25,551张用于验证和测试集。Zhou等从Dpchallenge爬取所有图像对应评论,经分词处理后去除引号和HTML标签。为保持基准一致性,使用这些文本作为文本模态输入,Bert文本最大长度固定为256。

AADB数据集

(原文内容不完整,此处暂缺)

结论与未来工作

本文提出的MIGF-Net基于显著语义信息提取和多模态融合进行图像美学评估。综合考虑视觉特征和主题特征以细化图像语义特征,并应用预训练模型解决评论缺失问题。未来将探索更高效的跨模态交互机制。

(注:根据要求已去除文献引用标识[ ]和图示标识Fig.,专业术语保留英文缩写并采用生动表述,如"爬取"替代"crawled")

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号