
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于级联注意力增强网络的RGB-D室内场景语义分割方法研究
【字体: 大 中 小 】 时间:2025年06月09日 来源:Computer Vision and Image Understanding 4.3
编辑推荐:
为解决RGB-D图像语义分割中特征融合噪声干扰和低质量特征传播问题,研究人员提出级联注意力增强网络(CAENet),通过通道增强模块(CEM)、空间/通道注意力自适应聚合模块(AASA/AACA)和三路径融合模块(TFM)实现分层特征优化,在NYUDv2和SUNRGB-D数据集上分别达到52.0%和48.3%的mIoU,为机器人导航等应用提供更精准的语义分割方案。
在机器人导航和智能家居等领域,室内场景的精准语义分割一直是计算机视觉研究的核心挑战。尽管RGB-D传感器能同时提供色彩和深度信息,但现有方法在融合多模态特征时面临两大瓶颈:一是早期简单的特征拼接或求和操作(如FuseNet)难以避免噪声传播,二是跨模态注意力机制(如RDFNet)缺乏系统性分层优化策略。更棘手的是,室内场景中相似纹理物体(如白色墙壁与冰箱)在RGB通道难以区分,而深度数据又易受光照不均干扰,导致传统方法在NYUDv2数据集上的平均交并比(mIoU)长期徘徊在50%以下。
为解决这些问题,某大学研究团队在《Computer Vision and Image Understanding》发表论文,提出级联注意力增强网络(CAENet)。该研究创新性地构建了四阶段优化框架:在编码阶段采用通道增强模块(CEM)逐层净化RGB和深度特征;在编码末端通过空间注意力(AASA)和通道注意力(AACA)模块分别聚合高低级特征;解码阶段则通过三路径融合模块(TFM)实现多尺度特征重构。关键技术包括基于ResNet的双流编码器预训练、跨模态特征门控机制以及级联式特征精炼策略,实验采用NYUDv2和SUNRGB-D标准数据集进行验证。
架构设计
CAENet的核心创新在于分层递进的特征处理流程。编码器中,CEM模块通过深度特征对RGB特征进行通道级校正,显著抑制了特征传播过程中的噪声累积。例如在第三层实验中,CEM使特征信噪比提升23.6%。编码器末端,AASA模块通过空间注意力权重动态融合RGB特征的不同层级信息,而AACA模块则利用通道注意力机制优化深度特征,二者协同产生高质量的多模态语义表征。
解码优化
TFM模块采用三路径输入设计:将高层语义特征与编码器保留的原始RGB/深度特征进行跨尺度融合。实验数据显示,这种结构在保持83.2%高分辨率细节的同时,使小物体识别准确率提升17.4%。特别值得注意的是,TFM的级联式设计使得每层解码器都能获得增强后的多尺度特征,这解释了为何在窗帘等细长物体的分割任务中,CAENet比基准模型提高9.8个百分点的IoU。
性能验证
在NYUDv2测试集上,CAENet以52.0%的mIoU超越同期最优模型3.2个百分点,其中在"床"和"沙发"等大物体类别上达到68.5%的惊人准确率。SUNRGB-D数据集上的48.3%mIoU同样刷新纪录,特别是在光照复杂的厨房场景中,相对误差降低31.7%。消融实验证实,单独移除CEM会导致性能下降4.1%,而禁用AASA/AACA模块则使边界清晰度指标(F-score)恶化12.3%。
该研究的突破性在于建立了首个完整的RGB-D特征级联优化框架,其CEM模块开创性地解决了跨模态噪声传播难题。尽管在毫米级物体(如电源插座)分割上仍有提升空间,但CAENet为智能机器人环境感知提供了新范式。未来工作可探索该架构在室外场景和视频流分割中的应用潜力,其注意力机制设计思路对多模态医学影像分析亦有重要借鉴价值。
生物通微信公众号
知名企业招聘