《Scientific Data》:SCANIA Component X dataset: a real-world multivariate time series dataset for predictive maintenance
编辑推荐:
为解决预测性维护(PdM)领域真实世界数据集稀缺问题,研究人员开展 SCANIA Component X 数据集研究,得到可用于多种任务的数据集,推动 PdM 发展。
在科技飞速发展、数据驱动决策的时代,汽车行业正经历深刻变革,预测性维护(Predictive Maintenance,PdM)成为优化车辆性能、降低成本的关键手段。PdM 借助先进分析、传感器技术和机器学习,预测车辆部件的故障时间,以便及时进行维护。然而,该领域面临一个严峻的挑战 —— 公共真实世界数据集匮乏。原始设备制造商(Original Equipment Manufacturers,OEMs)出于数据敏感、商业机密等因素考虑,通常不愿分享数据,导致研究人员只能依赖模拟数据集开展研究。但模拟数据集无法完全模拟真实世界数据的复杂性,难以反映信号间复杂关系等实际问题,这使得开发能准确预测真实工业设备故障的稳健模型困难重重。
为打破这一困境,来自瑞典斯德哥尔摩大学(Stockholm University)和斯堪尼亚(Scania CV)的研究人员展开合作,开展了一项意义重大的研究。他们收集并发布了 SCANIA Component X 数据集,这一成果发表在《Scientific Data》上,为预测性维护领域带来了新的曙光。
在研究中,研究人员运用了多种关键技术方法。数据收集方面,从卡车的车载传感器获取运行数据,从车间获取维修记录,从生产系统获取卡车规格信息。针对数据隐私保护,采取相对时间表示、修改变量名、随机选取车辆子集等匿名化处理措施。为评估模型性能,设计了特定的成本函数。
研究结果主要围绕数据集的构成展开:
- 训练集:“train_operational_readouts.csv” 包含 23550 辆独特车辆的 1122452 条观测数据,涉及 14 个匿名化变量,其中 6 个变量以直方图形式呈现,8 个为数值计数器,缺失值率低于 1%。“train_tte.csv” 记录了 23550 辆车的 Component X 维修记录,标签 0 和 1 分别表示无故障和故障维修,数据不平衡,倾向于标签 0。“train_specifications.csv” 涵盖 23550 条车辆规格信息,8 个分类特征无缺失值。
- 验证集:“validation_operational_readouts.csv” 数据不完整,模拟实际预测场景,有 196227 条观测数据,缺失值少。“validation_labels.csv” 为 5046 辆车的最后一次读数分类,分为 5 个类别,数据不平衡,倾向于类别 0。“validation_specification.csv” 结构与训练集规格文件类似,数据来自 5046 辆车。
- 测试集:“test_operational_readouts.csv” 随机选取车辆最后读数,有 198140 条读数。“test_labels.csv” 为 5045 辆车分类,数据不平衡。“test_specifications.csv” 包含 5045 辆车的规格信息,8 个分类特征无缺失值。
研究结论表明,SCANIA Component X 数据集具有多方面重要意义。它是一个真实世界的多变量时间序列数据集,为机器学习在预测性维护中的应用提供了丰富资源,可用于分类、回归、生存分析、异常检测等多种任务。其独特的时间序列结构和大量数据,有助于研究人员开发更准确的预测模型,推动预测性维护领域的发展。此外,该数据集作为一个标准基准,方便研究人员比较不同方法的性能,促进该领域研究的可重复性。
这项研究的意义不仅在于为预测性维护提供了有价值的数据资源,还为该领域的研究开辟了新的方向。它鼓励更多研究人员基于真实数据开展研究,推动预测性维护技术的进步,进而提高工业设备的可靠性和效率,降低维护成本,在汽车行业乃至更广泛的工业领域都具有广阔的应用前景。