《Pattern Recognition》:Domain-Adaptive Point Cloud Semantic Segmentation via Knowledge-Augmented Deep Learning
编辑推荐:
城市场景训练的深度学习模型在荒漠等非结构化环境中存在泛化能力和幻觉问题,本文提出融合显式和隐式知识增强的跨域适应方法,通过特征解释器实现领域知识介入,并构建PCSS-Gobi-3D数据集验证有效性,mIoU提升显著。
Fengyu Xu|Yongxiong Xiao|Jilin Mei|Yu Hu|Qiang Fu|Hang Shi
计算感知研究中心,浙江实验室,杭州,100190,浙江,中国
摘要
由于训练数据的质量和数量都存在限制,用于点云语义分割的监督式深度学习方法通常表现出较差的泛化能力和产生幻觉现象,尤其是在自动驾驶应用中处理非结构化场景时。这些挑战促使我们开发了一种基于知识增强深度学习的领域自适应点云语义分割网络,该网络在经过城市数据集训练后可以应用于越野场景。具体而言,我们的方法采用了结合隐式和显式知识增强的策略。此外,还采用了基于属性分析的网络调制方法将领域知识整合到深度学习模型中,从而减轻了模型对虚假相关性的敏感度。我们还提出了新的网络调制性能指标来评估调制的效率和效果。为了实验验证,我们在训练和测试阶段分别使用了城市环境和越野环境之间存在显著差异的数据集。此外,我们发布了自己收集的越野数据集PCSS-Gobi-3D,这是首个戈壁沙漠场景的点云数据集。与其他领域自适应方法相比,我们的方法在跨领域3D语义分割性能上表现出色,尤其是在平均交并比(mIoU)和整体准确性方面取得了优异的结果。
引言
随着计算能力的持续提升,深度神经网络(DNN)在涉及自然语言、图像和3D点云的多模态模式识别任务中取得了显著的成功[1],[2]。在自动驾驶的背景下,基于DNN的感知系统越来越多地需要在复杂和多样的场景中运行,例如缺乏先验信息的非结构化越野环境。在这些具有挑战性的场景中,虽然3D激光雷达能够提供精确的环境测量数据,但用于训练深度学习模型的可用点云数量相对较少,与图像数据相比尤为明显。此外,大多数大规模点云数据集都是在结构化的城市场景中收集的[3],这导致基于DNN的点云语义分割(PCSS)的泛化能力较弱且容易产生幻觉。源领域和目标领域之间的差异进一步加剧了这些问题。如图1所示,这些领域差异体现在环境条件、传感器配置和固有特性等多个方面,从而给跨领域PCSS带来了重大挑战。
为了解决上述挑战,领域自适应技术已被应用于PCSS领域,并取得了有希望的结果[4],[5]。领域自适应在模式识别和机器学习中起着关键作用,旨在提高模型的泛化能力,并缩小不同领域之间的差异,使得训练好的模型能够在目标领域做出准确的预测[6],[7]。已经有多种针对不同跨领域任务的领域自适应方法被报道[8]。尽管结构化城市场景和非结构化越野场景之间存在显著差异,但人类可以利用经验知识来识别不同对象之间的共同属性,并根据这些属性对它们进行分类,这启发我们采用知识增强技术来实现领域自适应PCSS,并通过用领域知识调节模型来避免幻觉现象。
知识增强深度学习(KADL)解决了数据驱动模型所面临的挑战,如训练数据不足、缺乏可解释性和产生幻觉等问题。KADL的本质在于有效地将领域知识嵌入到模型中。现有的大多数方法主要涉及隐式知识增强,例如数据预处理、模型架构设计和损失函数优化,其中知识嵌入主要在训练阶段影响模型的权重。然而,直接将人类领域知识数学编码到模型权重中是困难的[9],因为通过反向传播进行的数据驱动训练得到的权重往往具有黑盒特性[10]。因此,除了隐式知识增强之外,我们还提出了一种显式知识增强模块,可以通过干预模型推理过程中的中间特征来显式嵌入领域知识。这种方法不仅能够防止模型产生幻觉输出,还能提高模型的可解释性。我们的初步工作已经在一定程度上探索了这种方法[11]。本文的主要贡献和改进如下:
(1)引入了一个多尺度知识蒸馏模块来训练领域自适应PCSS网络,结合了知识驱动和数据驱动的学习以实现隐式知识增强。
(2)开发了一个基于属性分析的显式知识增强双向交互框架,并详细描述了网络调制的原理和评估指标。
(3)通过广泛的验证测试证明了所提出方法的有希望的性能。我们将发布首个从沙漠环境收集的点云数据集PCSS-Gobi-3D,以促进在非结构化环境中的PCSS进一步研究。
本文的其余部分结构如下。第二节回顾了相关工作。第三节介绍了所提出的方法论,包括网络架构、知识增强策略和定量评估指标。第四节描述了实验设置并展示了比较评估结果。最后,第五节总结了本文并指出了未来研究的潜在方向。
节选内容
领域自适应点云语义分割
3D点云语义分割涉及将每个点分类为不同的类别,如车辆、行人、道路或建筑物,在自动驾驶系统中起着至关重要的作用[12],[13]。目前,基于深度学习的方法在这一领域取得了令人印象深刻的结果[14],[15]。然而,这些监督算法的泛化能力通常有限,导致在应用于未知或未探索的环境时准确性降低。为了解决这些问题
方法论
以往关于使用领域自适应深度学习进行点云语义分割的研究大多集中在隐式知识增强上,忽略了结合显式知识增强的好处。本文提出的方法结合了隐式和显式知识增强,如图3所示。我们的KADL架构主要包括三个模块:(1)PCSS网络的骨干部分,(2)隐式知识增强模块(IKAM),以及(3)显式
数据预处理
由于缺乏专门为PCSS设计的领域自适应评估数据集,我们使用了不同的数据集进行训练和测试。此外,我们还对测试车辆收集的数据进行了标注,以提供更全面的评估。本研究中使用的数据集详情如下:
结论
本研究提出了一种基于知识增强的点云语义分割方法,旨在开发一种能够从城市场景过渡到越野场景的领域自适应模型。所提出的方法结合了隐式和显式知识增强,形成了一个知识驱动和数据驱动的架构。一个关键的创新点是显式知识增强,其中利用属性分析构建了一个特征解释器,以弥合领域知识之间的差距
CRediT作者贡献声明
Fengyu Xu:撰写 – 审稿与编辑,撰写 – 原稿,可视化,软件,方法论,调查,数据管理。Yongxiong Xiao:撰写 – 原稿,验证,方法论,概念化。Jilin Mei:验证,监督,资金获取,形式分析,概念化。Yu Hu:资源,方法论,资金获取,概念化。Qiang Fu:监督,资源,资金获取。Hang Shi:监督,资源,资金获取。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
Fengyu Xu, Yongxiong Xiao, Jilin Mei, Yu Hu, Qiang Fu, Hang Shi报告称,他们获得了中华人民共和国科技部的行政支持、文章发表费用、设备、药品或物资以及旅行费用。Fengyu Xu, Yongxiong Xiao, Jilin Mei, Yu Hu, Qiang Fu, Hang Shi还报告了文章