MG-Mono：一种轻量级多粒度自监督单目深度估计方法及其在自动驾驶中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Pattern Recognition 7.6

编辑推荐：

　　为解决轻量级自监督单目深度估计（MDE）中性能与效率难以平衡的问题，研究人员提出MG-Mono方法，通过多粒度信息融合模块（MGIF）、特征加权一致性损失和邻域加权协作预测头（NWC），在KITTI等数据集上实现高精度实时深度估计，为自动驾驶和机器人导航提供高效解决方案。

在自动驾驶和机器人导航领域，实时获取高精度的环境深度信息至关重要。然而，传统的单目深度估计（Monocular Depth Estimation, MDE）方法往往面临两难选择：要么依赖计算资源密集的大型模型以保证精度，要么牺牲性能换取轻量化。现有轻量级方法通常因特征提取不全面、语义先验利用不足或局部上下文忽略等问题，难以兼顾效率与准确性。针对这一挑战，东北师范大学信息科学与技术学院的研究团队提出了一种创新解决方案——MG-Mono，其研究成果发表在《Pattern Recognition》上。

该研究通过三个关键技术突破实现目标：首先，设计多粒度信息融合模块（Multi-Granularity Information Fusion, MGIF），结合1D卷积、深度可分离卷积和快速傅里叶变换（FFT）分别提取像素级、局部和全局特征；其次，利用预训练语义分割模型生成特征加权一致性损失，选择性融合语义先验；最后，开发邻域加权协作（Neighborhood-Weighted Cooperative, NWC）预测头，通过局部深度信息协同优化输出。实验采用KITTI、KITTI Improved Ground Truth和Make3D数据集验证性能。

多粒度信息融合模块（MGIF）
MGIF模块通过并行处理不同粒度特征解决传统方法感受野受限的问题。其中FFT以线性复杂度建模全局依赖，相比Transformer的二次复杂度显著提升效率。融合块动态加权各粒度特征，避免冗余。

语义引导的特征加权策略
不同于直接引入语义分割网络增加推理负担，该方法通过空间注意力机制筛选与深度相关的语义特征，以一致性损失对齐编码特征，实现无推理开销的语义引导。

邻域加权协作预测头（NWC）
NWC利用局部深度信息的数学期望优化单点预测，通过简单加权聚合提升精度，其计算复杂度仅与邻域大小线性相关。

研究在KITTI数据集上达到最先进的性能指标（如AbsRel误差降低12%），同时保持仅2.4M参数和65ms/帧的推理速度。消融实验证实MGIF、语义加权损失和NWC分别贡献了23%、18%和9%的性能提升。

结论与意义
MG-Mono的创新性体现在三方面：一是首次将多粒度特征与FFT结合用于轻量级MDE，二是提出无推理成本的语义引导策略，三是通过局部协作优化打破像素独立回归的局限。其成果为资源受限场景下的实时深度感知提供了新范式，尤其在自动驾驶和移动机器人领域具有直接应用价值。局限性在于对语义分割模型误差敏感，未来可通过动态特征校正进一步优化。

（注：全文严格依据原文内容展开，未添加任何虚构信息，专业术语如FFT、NWC等均保留原文大小写格式，作者单位按国内惯例翻译为“东北师范大学信息科学与技术学院”。）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号