
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义提示生成与特征融合的文本引导视觉提示学习框架(SPGFF)
【字体: 大 中 小 】 时间:2025年08月14日 来源:Neurocomputing 6.5
编辑推荐:
这篇研究创新性地提出语义提示生成与特征融合(SPGFF)框架,通过文本引导提示生成(TGPG)模块和文本引导特征融合(TGFF)模块,解决了视觉语言模型(VLMs)在视觉特征提取中语义对齐不足的难题。实验证明该方法在11个基准数据集上实现79.69%的谐波均值,显著提升细粒度特征捕捉能力。
Highlight
本研究突破传统视觉提示学习的局限,通过语义-文本协同引导机制,建立了高精度跨模态对齐的统一框架,同时保持了预训练视觉语言模型(VLMs)的泛化能力。
Method
SPGFF框架包含两大核心模块:
文本引导提示生成(TGPG):利用大语言模型(LLMs)生成细粒度文本描述,将其与视觉特征结合创建语义相关提示
文本引导特征融合(TGFF):采用自注意力(self-attention)和交叉注意力(cross-attention)机制,在文本监督下增强局部-全局特征整合
Experiments
在三大挑战性任务中验证性能:
基础-新类别泛化:在5/11数据集上达到SOTA
跨数据集迁移:显著优于VPT和ProVP等基线方法
少样本分类:仅需1-16个样本即可实现稳定识别
Text Availability and Robustness
针对现实场景中文本缺失问题,提出三级降级策略:
使用类别名称替代详细描述
激活视觉主导模式
混合专家(MoE)架构动态调整模态权重
Conclusion
SPGFF框架通过双模块协同机制,在保持预训练VLMs泛化能力的同时,显著提升了细粒度语义理解能力,为医疗影像分析等需要高精度跨模态对齐的场景提供了新思路。
生物通微信公众号
知名企业招聘