基于提示调谐与动态频域重构的高效RGB-D跨模态语义分割网络ECMRN

【字体: 时间:2025年08月31日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  【编辑推荐】本文提出高效跨模态重参数化网络ECMRN,通过提示调谐(prompt tuning)和动态频域重构模块(DFRM)实现RGB-D模态的高效融合,结合冻结Transformer分支与可训练CNN分支的混合架构,在减少50%参数量的同时保持SOTA性能,为自动驾驶、智能监控等场景提供轻量化解决方案。

  

亮点
• 提出基于提示调谐的高效RGB-D分割框架,通过跨层提示适配器(CPA)有效弥合模态差异,在深度数据噪声条件下仍能保持语义对齐一致性。
• 创新性设计动态频域重参数化模块(DFRM),利用门控动态卷积整合空间与频域特征,实现多分支训练-单分支推理的轻量化部署。
• 多尺度特征优化模块(MFOM)采用分组注意力机制增强边界和同质区域表征能力。

方法概述
如图2所示,ECMRN采用经典编码器-解码器架构。编码器通过混合RGB-D块(冻结Transformer分支+可训练CNN分支)协同建模全局上下文与局部结构,CPA模块通过可学习注意力融合实现跨模态语义对齐。DFRM在训练时整合频域特征,推理时等效转换为单分支结构提升效率。

实验验证
在RGB-D语义分割和显著性检测两项任务中,ECMRN以不足主流方法50%的参数量,在7个数据集上刷新性能记录。消融实验表明DFRM使mIoU提升2.3%,MFOM显著改善小目标分割效果。

结论
ECMRN通过创新性融合提示调谐与频域重参数化技术,为跨模态视觉任务提供新的轻量化设计范式。未来可扩展至RGB-T(热成像)等多模态医疗影像分析领域。

作者贡献声明
贾迪:基金获取/论文修订;赵晨:概念设计/数据分析;宋慧伦:方法论;张华秀:软件开发;李伟:实验验证。

利益冲突声明
作者声明无任何可能影响本研究结果的财务或个人关系。

致谢
本研究受国家自然科学基金(61601213)、辽宁教育厅重点项目(LJ212410147003)等资助支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号