基于语义提示生成与特征融合的文本引导视觉提示学习框架(SPGFF)

【字体: 时间:2025年08月14日 来源:Neurocomputing 6.5

编辑推荐:

  这篇研究创新性地提出语义提示生成与特征融合(SPGFF)框架,通过文本引导提示生成(TGPG)模块和文本引导特征融合(TGFF)模块,解决了视觉语言模型(VLMs)在视觉特征提取中语义对齐不足的难题。实验证明该方法在11个基准数据集上实现79.69%的谐波均值,显著提升细粒度特征捕捉能力。

  

Highlight

本研究突破传统视觉提示学习的局限,通过语义-文本协同引导机制,建立了高精度跨模态对齐的统一框架,同时保持了预训练视觉语言模型(VLMs)的泛化能力。

Method

SPGFF框架包含两大核心模块:

  1. 文本引导提示生成(TGPG):利用大语言模型(LLMs)生成细粒度文本描述,将其与视觉特征结合创建语义相关提示

  2. 文本引导特征融合(TGFF):采用自注意力(self-attention)和交叉注意力(cross-attention)机制,在文本监督下增强局部-全局特征整合

Experiments

在三大挑战性任务中验证性能:

  1. 基础-新类别泛化:在5/11数据集上达到SOTA

  2. 跨数据集迁移:显著优于VPT和ProVP等基线方法

  3. 少样本分类:仅需1-16个样本即可实现稳定识别

Text Availability and Robustness

针对现实场景中文本缺失问题,提出三级降级策略:

  1. 使用类别名称替代详细描述

  2. 激活视觉主导模式

  3. 混合专家(MoE)架构动态调整模态权重

Conclusion

SPGFF框架通过双模块协同机制,在保持预训练VLMs泛化能力的同时,显著提升了细粒度语义理解能力,为医疗影像分析等需要高精度跨模态对齐的场景提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号