新型高通量保留时间预测模型:提升化学分析精准度的关键突破

【字体: 时间:2025年02月20日 来源:Research 8.3

编辑推荐:

  为解决传统保留时间(RT)预测难题,研究构建 MTSCAM 模型,提升预测精度,助力化学分析。

  在科技飞速发展的当下,化学领域的研究也迎来了前所未有的挑战。截至 2024 年 6 月,化学物质数据库(CAS REGISTRYSM)中已收录 27900 万种化学物质,且自 2009 年起,化学品数量每年以超过 10% 的速度增长。然而,市场上仅有 3% 的化学品拥有全面的评估数据,这意味着超过 90% 化合物的特性尚不清楚,给化学鉴定、分析和风险控制带来了巨大阻碍。
保留时间(Retention Time,RT)预测作为化合物鉴定的重要手段,在化学分析中起着关键作用。传统的 RT 预测方法严重依赖标准化合物,但标准产品的合成与制造速度受限,不仅耗时费力,还难以满足日益增长的化学分析需求。近年来,机器学习(Machine Learning,ML)和人工智能算法虽已应用于 RT 预测领域,展现出一定优势,但现有方法仍存在诸多问题。比如,缺乏全面的训练数据集,有效数据稀疏,且未对数据集进行合理分类,导致模型的泛化能力和准确性较差。

为应对这些挑战,研究人员开展了一项极具意义的研究,旨在开发一种通用的高通量 RT 预测模型。该研究成果发表在《Research》上,为化学分析领域带来了新的曙光。

在研究过程中,研究人员运用了多种关键技术方法。首先是数据库构建,通过高效液相色谱 - 高分辨率质谱(High Performance Liquid Chromatography-High Resolution Mass Spectrometry,HPLC-HRMS)技术,测定了 10905 种食品化学危害物的 RT,并构建了 MassFoCUS 数据库。其次是数据增强,采用简化分子输入线输入系统(Simplified Molecular Input Line Entry System,SMILES)枚举(SE)和基于分子拓扑相似性增强的主动学习(Topology-guided Active Learning,Topo-AL)策略,有效扩充了训练数据集。最后,运用 7 种 ML 算法进行建模,针对不同数据集类别选择最优算法构建定量结构 - 保留关系(Quantitative Structure-Retention Relationship,QSRR)模型。

下面来详细看看研究结果:

  • 整体流程:研究构建的 MTSCAM 模型包含数据整理、分类、建模和测试 4 个部分。利用 Rdkit 包将 MassFoCUS 数据库中化合物的 SMILES 字符串转化为 SMARTS,借助 ClassyFire 平台基于功能基团进行化学分类。随后,将 10905 种有机化合物依据功能基团类别和权重系数分为 13 个超类下的 141 个子类,并为每个子类构建 RT 预测模型。同时,采用 SE 和 Topo-AL 相结合的数据增强策略,丰富训练集,最终构建出分子拓扑预测网络。
  • 数据库构建和物质分类:通过 HPLC-HRMS 获取 10905 种化合物的 RT 并构建数据库,该数据库涵盖多种有毒物质。依据功能基团和分子量对这些化合物进行分类,得到 13 个二级分类和 141 个三级分类,不同类别化合物数量差异较大,其中有机杂环化合物最多,有 4830 种,而有机卤化物和有机 1,3 - 偶极化合物最少。
  • 数据增强阈值的确定:数据增强虽能提升模型性能,但存在 “过度增强” 风险。研究分别对 SE 和 Topo-AL 的数据增强参数进行优化。实验发现,SE 枚举倍数为 5 倍时,模型性能显著提升,R2 从 74.27% 提高到 99.99%,MAE 从 67.3314 降至 0.2516;Topo-AL 中,引入结构相似度高于 0.5 的化合物时,模型 R2 提升至 0.9831 ,MAE 降至 9.57,表明相似度阈值高于 0.5 时对提升模型泛化能力最优。
  • 数据增强的消融实验:通过消融实验评估 SE 和 Topo-AL 对 QSRR 模型性能的影响。结果显示,单独使用 SE 策略可使模型 R2 提升至 0.9999,MAE 降至 0.2516;单独应用 Topo-AL 策略,R2 提升至 0.9831,MAE 降至 9.4791,但单策略易出现过拟合。两者结合时,模型 R2 优化至 0.9999,MAE 最小化至 0.1001,显著提高了与实验结果的契合度。
  • 基于分子指纹的判别分析的真实数据验证:使用新的化合物数据集对模型进行测试,模型总预测误差为 49.52s,平均误差为 1.59s,展现出良好的泛化能力。不同算法在不同 OPSRT 模型中表现各异,SVR 算法在 95% 的模型中表现最佳,随机森林回归算法在其余 5% 的模型中有效。此外,研究还发现基于化学结构和生物活性基团的分类方法存在显著差异。
  • 模型性能评估及与现有方法的对比分析:利用 METLIN-SMRT 数据集对 MTSCAM 模型性能进行评估,并与其他先进模型对比。结果表明,MTSCAM 模型表现优异,MAE 为 23.31s,R2 达到 0.98,优于当前最先进的 DeepGCN-RT 模型(MAE 为 26.55s,R2 为 0.89),MAE 降低了 12.20%,R2 提高了 10.11%。
  • 基于 SHAP 的模型可解释性分析:运用 SHAP 方法对模型进行分析,发现不同模型的特征具有多样性和重叠性。模型 A 包含多种特征,能从整体把握系统,但可解释性较差;子模型则各有侧重,如模型 D 聚焦特定子过程,模型 E 围绕特定属性和分子间相互作用。通过分析 SHAP 值,有助于识别关键特征,优化模型,提高预测精度和可解释性。

综合研究结论和讨论部分,MTSCAM 模型通过整合 SE、Topo-AL 策略以及化合物结构分类,显著提高了 RT 预测的准确性和模型的泛化能力。该模型平均预测误差仅为 23s,表明将化合物结构纳入训练过程至关重要,甚至比传统的特征工程更为关键。同时,判别分析结果进一步验证了模型的实用性,为模型优化提供了有价值的参考。MTSCAM 模型的成功应用为化学分析提供了强大工具,推动了化学分析技术的发展。不过,该模型的结论和泛化性仍需在更广泛的化学结构和数据集上进行验证。未来研究应聚焦于数据增强策略的协同组合与优化,提升模型性能和适用性,同时增强模型的可解释性和可视化,以更好地服务于化学研究和工业应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号