异质集成学习为原子尺度基础模型构建普适性不确定性度量新范式
《npj Computational Materials》:Heterogeneous ensemble enables a universal uncertainty metric for atomistic foundation models
【字体:
大
中
小
】
时间:2025年12月18日
来源:npj Computational Materials 11.9
编辑推荐:
本研究针对通用机器学习原子间势(uMLIPs)缺乏可靠不确定性量化(UQ)的瓶颈,提出了一种基于异质集成学习的普适性不确定性度量U。通过整合十余种架构各异的uMLIP模型并采用逆RMSE加权策略,该指标在OMat24等数据集上展现出与真实力误差的强相关性(斯皮尔曼ρ=0.87)。研究进一步开发了不确定性感知模型蒸馏(UAMD)框架,在钨金属和高熵合金MoNbTaW案例中,分别实现96%的DFT计算量削减和全流程无DFT标签的势函数训练,且精度媲美全DFT训练模型。该工作为uMLIPs的可靠部署提供了关键工具,推动了低碳计算材料科学发展。
在计算材料科学领域,密度泛函理论(DFT)长期以来被视为材料性质预测的金标准。然而,其高昂的计算成本严重限制了大规模原子模拟的应用范围。近年来,随着人工智能技术的突破,通用机器学习原子间势(uMLIPs)作为原子尺度基础模型崭露头角,能够在保持近DFT精度的同时,将计算效率提升数个量级。诸如M3GNet、CHGNet、MACE等模型通过在海量原子构型上进行训练,展现出跨越元素周期表的强大迁移能力。
尽管uMLIPs取得了显著进展,其在实际应用中的可靠性仍面临严峻挑战。特别是在处理特殊体系或缺陷富集构型时,模型预测精度可能出现显著衰减。更关键的是,当前缺乏普适性强、可量化的不确定性评估方法,使得研究人员难以判断模型预测的可信度。这种不确定性量化(UQ)的缺失,不仅限制了uMLIPs在关键场景中的安全部署,也阻碍了其通过微调和蒸馏等技术的进一步优化。
传统UQ方法如单一模型的置信度估计(如Orb模型的置信度头)或特征空间距离度量,虽在某些场景下有效,但在分布外(OOD)检测和跨体系泛化方面表现不佳。同质集成方法虽能提升不确定性估计的多样性,但训练多个大型uMLIP模型所需的计算资源令人望而却步——训练单个eqV2模型就需要数百万GPU小时,而最新模型如UMA(Universal Models for Atoms)参数量已达14亿。这种计算不可扩展性促使研究者思考:能否通过复用现有uMLIP模型资源,构建既可靠又可持续的不确定性度量框架?
针对这一挑战,荷兰代尔夫特理工大学Kai Liu等研究者在《npj Computational Materials》上发表的研究工作,提出了基于异质集成学习的创新解决方案。他们巧妙利用Matbench Discovery平台中已训练的二十余种uMLIP模型,通过精心设计的加权集成策略,构建了一个普适性强、计算高效的不确定性度量U,为uMLIPs的可靠应用提供了新范式。
研究团队采用了几项关键技术方法:首先构建了包含11种架构各异uMLIP模型的异质集成,通过逆力预测均方根误差(RMSEF)加权优化集成效果;其次开发了不确定性感知模型蒸馏(UAMD)框架,利用不确定性阈值Uc智能分配DFT与uMLIP标签;最后通过原子簇展开(ACE)势函数技术,将蒸馏后的知识压缩为高效专用势函数。验证体系涵盖纯金属钨(W)和难熔高熵合金MoNbTaW,数据集来源包括公开基准OMat24(含百万构型)及多个DFT衍生数据集。
研究团队系统比较了三种不确定性度量公式:均权集成U(0)、基于力误差加权的U(1)和力平均加权的U(2)。通过在OMat24测试集上的逐步筛选,发现包含11种uMLIP模型的逆RMSE加权集成U(1)表现最优,斯皮尔曼秩相关系数ρ达0.87。
如图2c所示,U与真实力误差在10-3-102eV/?范围内呈现紧密的线性关系,且条件分布分散度控制在单一数量级内。与Orb模型的置信度估计相比(图2d),U在保持相同相关性(ρ=0.87)的同时,显著改善了校准质量——低不确定性预测几乎从不产生大误差,而高不确定性情况能可靠指示 catastrophic deviations。
为验证U的泛化能力,研究者在三大类材料体系上进行测试:金属与合金(含TM23过渡金属集、CrCoNi等高熵合金)、无机化合物(如FeH、HfO2等)及其他材料(MOFs、钙钛矿等)。如图3a所示,U在10-7-10° eV/?的超宽范围内仍保持强单调关系,斯皮尔曼ρ分别达0.92(金属合金)、0.88(无机化合物)和0.82(其他材料)。
通过设定不确定性阈值Uc=1 eV/?,研究者建立了实用指南:当U低于此阈值时,uMLIP预测的力RMSE可保证≤0.1 eV/?。这一阈值在不同材料体系中表现出惊人一致性,为实际应用提供了明确标准。
在钨体系案例中,研究展示了UAMD框架的强大效能。通过将1,139个构型(含二聚体和短程构型等OOD样本)按Uc分区,仅需对4%高不确定性构型进行DFT标记,即可训练出与全DFT标签相媲美的ACE势函数。
如图4c所示,中间DFT比例(4%-39%)反而获得最低误差,揭示了uMLIP平滑性与DFT噪声间的平衡机制。通过声子谱(图4e)和双晶拉伸模拟(图4f)验证,UAMD训练的ACE势在结构、动力学和力学性质预测上与全DFT模型高度一致。
更令人印象深刻的是,在MoNbTaW高熵合金体系中,UAMD实现了完全避免DFT计算的全流程蒸馏。由于所有构型的U均低于阈值Uc=1 eV/?,研究者直接用uMLIP标签训练ACE势。结果显示,ACEUAMD在能量(7.25 meV/atom vs 5.69 meV/atom)和力(118.82 meV/? vs 119.83 meV/?)误差上与ACEDFT高度接近(图5b)。
通过进一步扩展数据集至7,000个新构型,研究者训练了通用ACE势(ACEUAMD,g)。如图6c所示,新势函数在晶界变形和裂纹扩展测试集上误差显著降低。大规模分子动力学模拟成功揭示了化学短程有序(SRO)对裂纹扩展行为的调控机制(图6d-f),展现了该方法在复杂材料体系模拟中的强大潜力。
本研究通过异质集成学习策略,成功构建了普适性强、计算高效的不确定性度量U,解决了uMLIPs可靠性评估的关键难题。UAMD框架的提出,不仅实现了96%的DFT计算量削减,更在高熵合金体系中展示了全流程无DFT标签的势函数训练可能性。这种"低碳计算"范式,通过复用现有模型资源和智能分配计算标签,显著降低了传统势函数开发的计算成本和碳足迹。
研究揭示的uMLIP平滑性优势与DFT噪声抵消机制,为未来势函数发展提供了重要启示:适度融合uMLIP与DFT标签可能获得超越纯DFT训练的精度。此外,U度量的多场景适用性——从实时可靠性监控、定向微调到数据集扩展——使其成为uMLIP生态系统发展的关键使能技术。
这项工作不仅推动了原子尺度模拟向更可靠、更高效方向发展,更重要的是建立了一种可持续的计算材料研究范式。随着uMLIP模型的不断进化,这种基于模型复用的异质集成策略有望持续提升,为计算驱动的新材料发现提供坚实支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号