基于自建数据集提升点云配准泛化性能的研究

【字体: 时间:2025年04月02日 来源:Scientific Data 5.8

编辑推荐:

  当前点云配准网络训练和测试数据集常不满足独立同分布假设,导致性能下降和泛化性差。研究人员构建含丰富域差异变量的自建数据集开展研究。结果显示网络泛化性显著提升,一步泛化比达 0.9832,为点云配准跨域研究提供数据参考。

  在如今科技飞速发展的时代,机器人导航、自动驾驶、增强现实等领域都离不开点云配准(Point Cloud Registration,PCR)技术,它的作用是计算两帧点云之间的转换矩阵,就像是为这些技术搭建起了沟通的桥梁。然而,现有的点云配准网络在训练和测试时却面临着一个棘手的问题,那就是训练和测试数据集常常无法满足独立同分布假设。这一问题就如同隐藏在机器内部的 “捣蛋鬼”,会导致网络的性能大幅下降,泛化能力变差。简单来说,当网络在面对和训练数据不同的新场景时,就会变得 “手足无措”,无法准确地完成点云配准任务。
传统的基于神经网络的 PCR 模型在训练时,往往默认训练和测试数据符合独立同分布。但在实际应用中,比如自动驾驶和机器人领域,LiDAR 传感器获取数据时会受到雷达分辨率、作用范围、采集环境等多种因素影响,这些因素就像一道道屏障,阻碍了网络泛化能力的发挥。为了克服这个问题,人们想了很多办法。有的尝试通过增加训练数据集来覆盖测试数据的所有特征,可在实际应用中,获取大规模数据集并不容易;还有的采用多域联合训练、优化特征提取器等方法,但这些方法都存在一些局限性,比如只能关注到部分高级特征,或者需要大量标记数据,导致训练时间长、难以微调。

在这样的背景下,西安工业大学的研究人员开展了一项关于构建自建数据集以提升点云配准泛化性能的研究。他们的研究成果发表在《Scientific Data》上,为点云配准领域带来了新的曙光。

研究人员为开展这项研究,用到了以下几个主要关键技术方法:首先,使用多种不同的深度学习网络,如 PCRNet、HRegNet 和 GeoTransformer22,在多个广泛采用的基准数据集上进行训练和测试,以评估网络的泛化性能。其次,构建自定义数据集,通过在数据采集过程中引入多种域差异变量,如数据采集场景变化、传感器分辨率差异、空间采样率不同以及时间帧序列改变等,来增强数据集的多样性。此外,在数据后处理阶段,采用空间一致性关键点云提取、随机稀疏帧间注册以及增强 LiDAR 分辨率多样性等方法对数据进行处理 。

下面来看看具体的研究结果:

  • 网络在常见数据集上的泛化性能评估:研究人员选择了三种不同类型的深度学习网络,基于四个常用的基准数据集进行训练,包括 ModelNet40(包含 40 种常见物体类别)、WHU-TLS(地面激光扫描数据集,含复杂城市环境点云数据)、KITTI(包含车辆、行人、建筑物等多样点云数据)和 Nuescenes(包含丰富交通场景和环境点云数据)。通过训练,研究人员发现不同数据集对网络泛化性能影响显著。当在不同域进行测试时,网络的准确率会不同程度下降,这表明现有数据集在一定程度上限制了网络的泛化能力。
  • 构建含域差异点云的数据集
    • 数据采集:研究人员选用了三种不同型号的 LiDAR 传感器,在不同场景下进行数据采集。这些场景包括郊区交通道路、城市交通道路和校园道路,采集过程中考虑了数据采集场景、传感器分辨率、空间采样率和时间帧序列的变化。最终,在不同场景下共采集了大量点云数据,如 Scene 1 采集了 16276 套,Scene 2 采集了 45095 套,Scene 3 采集了 2090 套。
    • 自建数据集:将采集到的点云数据和 IMU 数据输入到 LiDAR 同步定位与建图算法(Point-LIO)中,获取姿态信息和 3D 点云地图数据,再将其分割成 PCD 格式的单个点云帧,并计算相应的姿态变换矩阵,构建出训练数据集。最后,将每个数据集按比例划分为训练集、测试集和验证集 。
    • 数据后处理:一是空间一致性关键点云提取,将点云划分成三维体素网格,保留每个体素的代表点(通常是质心),并对数据进行裁剪和不同采样率处理;二是随机稀疏帧间注册,对 Scene 1 和 Scene 2 的连续时间序列数据进行随机帧选择和间隔稀疏采样,获取稀疏帧数据集;三是增强 LiDAR 分辨率多样性,将不同分辨率的 LiDAR 数据混合,引入分辨率变量。

  • 技术验证
    • 评估指标:研究人员采用香农熵(Shannon entropy)来衡量数据集中特征的分布,通过计算网络训练和测试的误差差距、准确率差距以及一步泛化比(One-Step Generalization Ratio,OSGR)等指标,来量化和比较不同数据集对网络跨域泛化性能的影响。
    • 空间一致性关键点提取对泛化的影响:研究发现点云采样率对泛化性能至关重要。采样率过高或过低都会降低泛化性能,当采样率为 0.5 时,OSGR 值达到峰值 0.7299,网络的泛化性能最佳。
    • 随机稀疏帧间注册对泛化的影响:实验表明,帧间隔为 4 时,网络的泛化性能显著优于连续帧的情况,此时测试准确率为 1,OSGR 值达到 0.9832。这说明在保持一定时间连续性的同时,选择合适的帧间隔能有效提高网络泛化性能。
    • LiDAR 分辨率多样性对泛化的影响:混合不同分辨率的训练数据虽然增加了数据多样性,但也减少了关键特征,导致泛化性能下降。实验结果显示,128 线数据集的 OSGR 值(0.2371)明显低于 32 线数据集(0.9832),表明过多的特征可能会使网络过拟合,不利于泛化性能的提升。
    • 验证结果分析:自建数据集包含 63461 套样本,覆盖 3 种不同场景,具有较强的泛化性,能有效迁移到其他相关领域。但在快速移动场景下存在一定性能局限。
    • 对比研究:基于 GeoTransformer 网络,对比不同数据集训练后的网络性能。结果显示,在跨域泛化测试中,使用自建优化数据集训练的网络,准确率提升了 0.318,相比其他数据集,其在相同测试数据下的成功配准比例更高,重叠效果更好。


综合上述研究,研究人员成功构建了一个包含丰富跨域因素的点云配准数据集。通过一系列实验和分析,明确了不同数据处理方法对网络泛化性能的影响,并确定了最优的数据集参数。这个自建数据集显著提升了网络的泛化性能,为点云配准的跨域研究提供了高质量的数据参考,在自动驾驶、医学等领域具有潜在的应用价值。例如,在自动驾驶领域,它能帮助模型更好地适应不同天气和道路条件下的新驾驶环境;在医学领域,基于该数据集训练的模型可以直接部署到新医院,无需重新训练。这项研究为点云配准领域的发展提供了新的思路和方向,有助于推动相关技术在更多领域的应用和发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号