大规模虚拟火灾残骸数据中机器学习方法的评估:提升火灾调查准确性的关键探索

【字体: 时间:2025年05月12日 来源:Forensic Chemistry 2.6

编辑推荐:

  在火灾残骸样本分析中,传统视觉比较法主观且耗时。研究人员开展 “评估机器学习方法在大规模虚拟火灾残骸数据中的应用” 研究。结果显示不同方法在不同数据集表现各异,推荐神经网络分析 TIS 数据集。这为火灾残骸分析提供新方向。

  在火灾调查领域,准确检测火灾残骸样本中是否存在可燃液体残留物(ILR)至关重要。然而,传统的依据 ASTM E1618 - 19 标准进行的视觉比较法,主要是将未知样本与已知的总离子色谱图进行比对。这种方法存在明显弊端,它过于依赖人工判断,主观性强,而且在面对大量火灾残骸样本时,检测效率低下,耗费大量时间和精力。为了攻克这些难题,提升火灾残骸分析的准确性和效率,美国国家法医学中心(National Center for Forensic Science)的研究人员开展了一项极具意义的研究。
研究人员构建了一个包含 240,000 个虚拟(in - silico,IS)火灾残骸样本的大型数据集,其中 50% 的样本含有可燃液体残留物,另外 50% 仅含有基质成分。在此基础上,研究人员运用了七种机器学习(ML)方法,包括逻辑回归(LR)、线性判别分析(LDA)、二次判别分析(QDA)、支持向量机(SVM)、随机森林(RF)、神经网络(NN)和 XGBoost(XGB),并对这些方法的性能进行评估和比较。研究成果发表在《Forensic Chemistry》上,为火灾残骸分析领域带来了新的突破和方向。

在研究过程中,研究人员运用了多种关键技术方法。首先,利用数据增强方法生成大规模的虚拟火灾残骸样本数据集。然后,从数据集中提取特征,例如从 131 个离子中选取了 30 个来自 ASTM E1618 - 19 标准中 Table 2 的离子作为特征,并通过最小 - 最大变换对数据进行预处理。最后,将数据集划分为训练集和测试集,运用交叉验证等方式训练和评估七种机器学习模型。

机器学习方法在不同数据集上的表现


研究人员对七种机器学习方法在虚拟总离子光谱(TIS)数据集和实验总离子光谱数据集上进行了测试。在虚拟测试数据集和实验火灾残骸数据集上,神经网络(NN)在 TIS 数据集上展现出最高的 ROC 曲线下面积(AUC)。这意味着神经网络在区分含有可燃液体残留物样本和仅含基质成分样本方面,具有较高的准确性。AUC 是评估模型性能的重要指标,它代表了模型将随机选择的含有可燃液体残留物样本正确地排在仅含基质成分样本之前的概率。

随机森林在 TIC 数据集上的优势


研究人员还将机器学习方法应用于实验总离子色谱(TIC)数据集,并对保留指数进行不同大小的分箱处理。结果发现,当对保留指数进行分箱时,随机森林(RF)在 TIC 数据集上表现最为出色。这表明随机森林在处理 TIC 数据集时,能够更好地挖掘数据中的特征和规律,从而实现更准确的预测。

研究结论与讨论


综合研究结果,七种机器学习方法在虚拟 TIS 数据和实验火灾残骸 TIS 数据上均有不错的表现。但不同方法在不同数据集上各有优劣。研究人员推荐使用神经网络来分析 TIS 数据集,而不建议使用逻辑回归、线性判别分析和二次判别分析等方法。这一研究结论为火灾残骸分析提供了科学依据,帮助相关人员更有针对性地选择合适的机器学习方法,提高火灾调查中对残骸样本分析的准确性和效率。同时,该研究也为机器学习方法在法医学领域的进一步应用和发展奠定了基础,后续研究可以在此基础上,探索更多改进和优化方法,推动火灾残骸分析技术不断进步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号