重磅!QCML 数据集 —— 开启量子化学机器学习新时代

【字体: 时间:2025年03月09日 来源:Scientific Data 5.8

编辑推荐:

  为解决量子化学机器学习模型训练数据问题,研究人员构建 QCML 数据集,助力相关研究发展。

  在化学的微观世界里,科学家们一直试图揭开分子结构与性质之间的神秘面纱。量子化学作为研究原子、分子和化学反应的基础理论,对于理解物质的本质起着关键作用。然而,传统的量子化学计算方法,如从头算(ab initio calculations),虽然精确,但计算成本极高,且随着系统规模的增大,计算难度呈指数级上升。
近年来,机器学习(ML)方法在计算化学领域异军突起。它无需精确求解薛定谔方程,就能直接预测化学结构的性质,大大提高了计算速度,为化学研究带来了新的曙光。ML 方法被广泛应用于构建机器学习力场(MLFFs)、加速分子模拟、预测波函数以及探索化学空间等多个方面。但这些应用的前提是,需要大量高质量的参考数据来训练 ML 模型,而现有的数据集存在诸多不足。

现有的量子化学数据集虽然数量众多,但各有局限。例如,QM7 和 QM9 数据集主要包含平衡结构的性质,适合训练用于化学空间探索的 ML 模型,却无法满足训练 MLFFs 对非平衡构象参考数据的需求;PubchemQC 项目的数据集虽然规模庞大,但不同来源的数据在结构采样和性质计算上存在不一致性;一些专注于特定领域的数据集,如 QMugs 用于药物发现、SPICE 用于模拟小分子与蛋白质相互作用,仅涵盖了部分化合物和性质,无法全面支持各种 ML 模型的训练。

为了填补这一空白,来自 Google DeepMind(瑞士苏黎世、德国柏林)、TU Berlin 和 BIFOLD(德国柏林)、Korea University(韩国首尔)、Max Planck Institute for Informatics(德国萨尔布 ücken)的研究人员 Stefan Ganscha、Oliver T. Unke 等人开展了深入研究,构建了 QCML 数据集(Quantum chemistry reference data from 33.5M DFT and 14.7B semi - empirical calculations)。该研究成果发表在《Scientific Data》上,为量子化学研究带来了新的突破。

研究人员在构建 QCML 数据集时,运用了多种关键技术方法。首先,在化学图构建方面,从多个现有数据库导入化学图,并通过系统生成和数据富集等手段,确保化学图尽可能覆盖化学空间。对于构象(3D 结构)生成,先利用 Open Babel 和 ASE 软件进行构象搜索,找到势能面(PES)的局部极小值,再通过正常模式采样生成非平衡构象。在量子化学计算阶段,使用半经验方法(如 GFN0 - xTB 和 GFN2 - xTB)对所有构象计算相关性质,对随机选择的子集进行密度泛函理论(DFT)计算,并考虑了色散校正。最后,将数据整理为 Tensorflow 数据集(TFDS)的格式,方便使用。

下面来看看具体的研究结果:

  1. 数据集构成:QCML 数据集包含化学图、构象和量子化学计算结果,具有层次化结构。化学图涵盖了元素周期表中的大部分元素,分子形状多样,电子态丰富。通过多种数据来源和生成方式,确保了化学图的多样性,为后续研究提供了广泛的基础12
  2. 数据计算与记录:研究人员对大量构象进行了半经验计算(147 亿个条目)和 DFT 计算(3350 万个条目),计算了能量、力、多极矩等多种性质。这些数据被记录在 TFDS 中,按照特定的目录结构组织,方便用户获取和使用34
  3. 数据验证:为保证数据质量,研究人员进行了严格的技术验证。通过自动化检查和过滤,排除了不符合要求的化学图、构象和计算结果。同时,采用多种标准进行异常值检测,如形成能、最大力、最小原子间距离和键级等,对可能影响 ML 模型训练的数据进行标记56
  4. 模型训练验证:利用该数据集,研究人员以 SpookyNet 模型为例进行训练,并开展分子动力学模拟。结果表明,随着训练数据量的增加,模型预测的平均绝对误差降低,在使用 100 万个以上训练样本时,能量和力的误差低于化学精度。对阿司匹林进行的分子动力学模拟显示,模型在模拟较大结构时表现稳定,未出现采样不足的问题78

研究结论与讨论部分指出,QCML 数据集为量子化学领域的机器学习模型训练提供了全面、高质量的数据支持。通过对多种性质的计算和不同层次理论的分析,研究人员发现不同理论计算结果之间存在高度相关性,这为基于 147 亿个半经验数据点的迁移学习提供了可能。同时,对数据集的验证和模型训练测试表明,该数据集能够有效支持构建高精度的机器学习力场,为分子动力学模拟等研究提供可靠的数据基础。这一数据集的出现,将推动量子化学领域的发展,有助于科学家更深入地理解分子结构与性质的关系,加速新型材料和药物的研发进程,在化学研究领域具有重要的意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号