广义领域提示学习:解锁可及的科学视觉语言模型,推动 AI 公平发展

《Nexus》:Generalized Domain Prompt Learning for Accessible Scientific Vision-Language Models

【字体: 时间:2025年03月28日 来源:Nexus

编辑推荐:

  为解决特定领域视觉语言模型(VLMs)开发资源需求大,限制学术研究及领域发展的问题,研究人员开展广义领域提示学习(GDPL)框架的研究。结果表明该框架能有效实现领域识别,降低资源需求。其意义在于促进 AI 公平,推动可持续研究。

  在人工智能蓬勃发展的当下,大型视觉语言模型(VLMs)在自然视觉任务中成绩斐然,像大家熟知的对比语言 - 图像预训练(CLIP)模型,凭借大规模的视觉文本对训练和对比学习,建立起强大的跨模态关系,展现出卓越的零样本识别能力。这一成功也吸引众多科研人员探索特定领域的 VLMs,期望在遥感、医学影像、地质等专业领域发挥其优势。
然而,开发特定领域的 VLMs 面临着巨大的挑战。从数据层面来看,需要大量标注数据,这些数据的收集和标注工作既繁琐又耗时;在资源方面,训练模型需要消耗大量的电力和计算资源,通常还依赖高性能计算中心(HPC)的支持。这使得相关研究成本高昂,只有资金雄厚的工业巨头才有能力涉足,学术界和小型研究团队往往望而却步。这种资源的不平等严重限制了 VLMs 在特定领域的研究多样性和创新发展,许多潜在的突破性研究想法因缺乏资源支持而难以实现。

为了打破这一困境,促进视觉语言模型研究的公平发展,上海交通大学人工智能教育部重点实验室、宁波数字孪生研究院等机构的研究人员开展了关于广义领域提示学习(Generalized Domain Prompt Learning,GDPL)框架的研究。相关成果发表在《Nexus》上。

研究人员主要运用了以下关键技术方法:一是利用四元数网络(Quaternion Network)挖掘多模态特征之间的正交关系,将领域特定的视觉特征和语言分支的上下文嵌入投影到四元数空间,从而揭示跨模态关系;二是采用低秩适应(Low-Rank Adaptation,LoRA)技术,通过引入可学习的低秩矩阵对模型进行微调,在减少训练样本和计算成本的同时,为了避免破坏已有的视觉语言匹配关系,研究人员提出了一种新颖的跨模态低秩适应方法,引入可学习的跨模态矩阵来协调视觉和语言分支的低秩参数更新 。

研究结果如下:

  • 广义领域提示学习:利用领域特定基础模型提供的领域知识,通过四元数网络将语言和视觉分支转移到特定领域,并提出新的低秩适应方法挖掘 VLMs 的领域适应潜力。在多个领域数据集上的实验表明,该方法能有效将基于自然视觉的 VLMs 转移到特定领域,实现了卓越的性能。
  • 特定领域 VLMs:基于 GDPL 成功创建了针对不同科学领域的特定领域视觉语言模型。在遥感领域,获取的遥感 VLM 超越了以往基于自然视觉的提示学习方法,平均调和均值(Harmonic Mean,HM)性能提升约 3%;医学领域,平均 HM 提升 5.19%,基础准确率从 64.45% 显著提高到 80.27% ,但在新类别上性能有待提高;地质领域,在各类性能指标上均显著优于先前算法,基础类别准确率提升 12.41% ,新类别提升 5.05% ,HM 提升 8.36% ;流体力学领域,虽然所有提示学习方法的识别性能提升幅度不大,但该方法在 XYZ 维度分类上改进了 0.76% ,UVW 维度分类提升 1.62% ,平均性能提高 1.19% ;SAR 领域,该方法在基础和新类别上均表现出色,优于对比方法。
  • 详细分析特定领域 VLMs:定性比较发现,与原始 CLIP 相比,该方法通过抑制错误类别的相似性、放大真实类别的相似性来纠正分类错误,且随着类别数量增加,两者相似性差距扩大。跨数据集评估显示,在以遥感数据集为例的跨数据集评估中,该方法平均性能优于其他先进方法,在 WHURS19 数据集上准确率达 88.83% ,性能提升 3.36% 。类别泛化实验表明,该方法在平均性能上优于先前方法,但在 RSSCN7V2数据集上表现不佳,可能与该数据集类别数量有限有关。通过四元数网络引入正交性的研究发现,随着网络迭代,多模态输入之间的余弦相似度逐渐趋近于零,测试准确率相应提高,表明利用四元数网络提取正交关系可提升领域识别性能。

研究结论和讨论部分指出,GDPL 成功将 VLMs 的零样本识别能力从自然视觉领域转移到特定领域,降低了资源需求,打破了 VLMs 研究的资源垄断,促进了学术界可持续和公平的 VLM 研究。研究还发现,领域知识在领域提示学习过程中至关重要,未来可探索更有效的领域知识整合方法。虽然 GDPL 在未见新类别上提升了性能,但对基础类别的提升更为显著,说明类别内的具体示例有助于模型理解领域特定细节。此外,GDPL 与传统的领域对抗训练不同,它利用领域特定基础模型和少量提示样本实现领域适应,无需大量配对数据集和对抗优化,在资源有限时优势明显。不过,该方法本质上是数据驱动的,对流体内部结构难以进行深入物理分析。未来结合基于物理的技术或知识发现方法,如光谱分析,有望提高结果的可解释性,更好地连接识别的流结构与物理属性,提升模型在特定领域的表现。总的来说,GDPL 为特定领域 VLMs 的研究开辟了新道路,推动了 AI 公平发展,有望在多学科领域产生广泛而深远的影响。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号