基于热力学信息嵌套采样的机器学习势函数自主数据库构建及其在镁材料相图预测中的应用

《npj Computational Materials》:Autonomous thermodynamically informed database generation for machine-learned interatomic potentials and application to magnesium

【字体: 时间:2025年12月19日 来源:npj Computational Materials 11.9

编辑推荐:

  为解决机器学习势函数(MLIP)训练数据库构建依赖先验知识、难以全面覆盖热力学相关相空间的问题,研究人员开发了一种基于嵌套采样(NS)的自主数据库生成框架。该框架通过迭代学习,利用原子团簇展开(ACE)模型,成功构建了能够精确描述镁在0-600 GPa和0-8000 K范围内相行为的势函数,为高通量材料模拟提供了可靠工具。

  
在材料科学领域,准确预测材料在不同温度和压力下的相行为是理解其物理性质和应用潜力的关键。传统的密度泛函理论(DFT)计算虽然精度高,但计算成本极其昂贵,难以直接应用于大尺度或长时间尺度的分子动力学(MD)模拟。机器学习势函数(MLIP)应运而生,它通过学习DFT数据,能以接近DFT的精度进行快速计算,从而极大地扩展了模拟的时空尺度。
然而,MLIP的准确性和可靠性严重依赖于其训练数据库的质量。一个理想的训练数据库需要全面覆盖材料在目标相空间内所有热力学相关的原子构型。目前,构建数据库的方法主要分为两类:一类是基于分子动力学(MD)的采样,它能生成热力学相关的构型,但容易陷入局部势能面(PES)的极小值,难以发现新的稳定相;另一类是基于结构搜索算法,如随机结构搜索(RSS),它能广泛探索构型空间,但生成的结构往往缺乏热力学权重,导致训练数据中高能构型过多,而低能稳定相的代表性不足。此外,这两种方法通常需要研究者对材料的已知相有先验知识,这限制了MLIP的通用性和自动化程度。
为了克服这些挑战,来自华威大学的研究团队在《npj Computational Materials》上发表了一项研究,提出了一种全新的、基于热力学信息的自主数据库生成框架。该框架的核心是利用嵌套采样(Nested Sampling, NS)算法,它能够以无偏的方式探索整个构型空间,并自动为不同相赋予与其相空间体积成比例的权重。这意味着,热力学上更重要的相(如稳定相)会在数据库中占据更大的比重,从而确保训练出的MLIP在这些关键区域具有更高的精度。
研究人员将这一框架应用于元素镁,成功开发了一个能够精确描述其在0-600 GPa和0-8000 K范围内相行为的MLIP。该模型不仅准确预测了镁的相图,还在声子谱、弹性常数、缺陷形成能等一系列关键性质上表现出色,证明了该方法的强大能力。
为了构建高质量的机器学习势函数(MLIP)训练数据库,研究人员采用了一套结合嵌套采样(NS)、密度泛函理论(DFT)计算和原子团簇展开(ACE)模型的迭代工作流程。该流程主要包括以下几个关键步骤:
  1. 1.
    嵌套采样(NS)构型生成:利用NS算法,在目标压力范围内(0-600 GPa)对镁的构型空间进行无偏探索。NS能够生成一系列构型,这些构型按照其热力学权重(即相空间体积)进行排序,从而确保数据库包含从气相到固相的所有热力学相关构型。
  2. 2.
    DFT数据评估:从NS生成的构型中,根据迭代次数和温度范围,选择具有代表性的构型进行高精度的DFT计算,获取其能量、力和应力张量,作为MLIP训练的参考数据。
  3. 3.
    ACE模型训练与迭代:使用原子团簇展开(ACE)架构,基于DFT评估的数据集训练MLIP。在训练过程中,研究人员引入了基于模型委员会标准差(STD)的主动学习策略,以识别和避免MLIP势能面(PES)中的“空洞”(即非物理的低能区域),确保采样的构型始终处于物理合理的范围内。
  4. 4.
    数据库扩展与模型优化:将新生成的DFT数据添加到训练数据库中,并重新训练ACE模型。通过多次迭代,不断扩展数据库的覆盖范围并提高模型的准确性。最终,研究人员构建了一个包含8230个构型、总计超过10万个原子环境的数据库,并在此基础上训练了高精度的ACE势函数。
BCC-FCC过渡路径(贝恩路径)
为了评估MLIP在相变路径上的表现,研究人员计算了BCC和FCC相之间的贝恩路径。结果表明,在BCC相为基态的高压区域,MLIP对BCC相的能量预测与DFT结果高度一致。虽然对FCC相的能量存在轻微高估,但整体上模型能够准确描述相变路径的能量变化趋势,且路径上没有出现虚假的局部极小值,证明了MLIP在描述相变机制方面的可靠性。
声子谱
声子谱反映了MLIP在势能面极小值附近对力常数的预测能力。研究结果显示,在0 GPa下,MLIP对HCP、dHCP、FCC和BCC四种晶体结构的声子谱预测均与DFT结果吻合良好。即使在BCC相不稳定的低压区域,MLIP也能捕捉到其不稳定的声子模式。在高压下,MLIP对稳定相和次稳定相的声子谱预测同样表现出色,证明了该模型在描述晶格动力学性质方面的准确性。
弹性常数
弹性常数是衡量MLIP应力预测精度的重要指标。在0 GPa下,MLIP对HCP、dHCP、FCC和BCC四种结构的弹性常数预测与DFT结果高度一致,最大偏差仅为5 GPa。这表明MLIP能够准确描述材料在平衡位置附近的力学响应,为模拟材料的力学性质提供了可靠的基础。
相图
利用NS算法,研究人员计算了镁在1-600 GPa压力范围内的P-T相图。MLIP预测的相图与已有的实验和计算数据高度吻合。在低压区域,MLIP准确预测了HCP相的熔化线;在高压区域,MLIP预测的BCC相熔化线与最新的DFT计算结果一致。此外,MLIP还预测了BCC-FCC固-固相变,其相界与准谐波近似(QHA)的计算结果相符。这些结果证明了MLIP在预测复杂相行为方面的强大能力。
缺陷
为了评估MLIP在非平衡条件下的表现,研究人员计算了空位形成能、自间隙形成能和层错能。结果表明,MLIP对这些缺陷性质的预测与DFT结果高度一致。例如,在0-500 GPa的压力范围内,空位形成能的预测误差小于0.2 eV,自间隙形成能的预测误差小于0.5 eV,层错能的预测误差小于0.005 eV。这些结果证明,尽管训练数据库主要包含热力学平衡构型,但MLIP仍然能够准确描述非平衡缺陷的性质,展现了其良好的可迁移性。
X射线衍射图谱
针对实验中观察到的未指认衍射峰,研究人员利用MLIP模拟了不同温度和压力下的X射线衍射图谱。结果表明,这些未指认的峰并非来自一个未知的稳定相,而是可能源于长周期堆垛有序结构。通过系统生成12层以内的密排结构,研究人员发现多个结构能够重现实验观察到的衍射峰,为解释实验现象提供了新的线索。
本研究提出并验证了一种基于热力学信息的自主数据库生成框架,用于开发高精度、高可迁移性的机器学习势函数。该框架的核心是利用嵌套采样(NS)算法,以无偏的方式探索构型空间,并自动为不同相赋予热力学权重。通过将这一框架应用于镁元素,研究人员成功构建了一个能够精确描述其在0-600 GPa和0-8000 K范围内相行为的ACE势函数。
该模型在多个关键性质上均表现出色,包括声子谱、弹性常数、缺陷形成能以及P-T相图。特别值得一提的是,该模型在预测高压相变和熔化线方面与实验和DFT结果高度吻合,证明了其强大的预测能力。此外,该模型还能够准确描述非平衡缺陷的性质,展现了其良好的可迁移性。
这项研究的意义在于,它提供了一种通用、自动化且高效的MLIP开发方法。该方法不依赖于对材料相的先验知识,能够自动发现并准确描述热力学相关的相,从而为高通量材料模拟和材料设计提供了强有力的工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号