主动学习增强机器学习势函数高效预测红外光谱:PALIRS框架在催化研究中的突破

《npj Computational Materials》:Leveraging active learning-enhanced machine-learned interatomic potential for efficient infrared spectra prediction

【字体: 时间:2025年10月31日 来源:npj Computational Materials 11.9

编辑推荐:

  本研究针对传统密度泛函理论(DFT)计算红外(IR)光谱计算成本高的问题,开发了基于主动学习(active learning)的PALIRS框架。该工作通过机器学习势函数(MLIP)和分子动力学(MLMD)模拟,仅需千分之一DFT计算量即可精准预测24种有机小分子的IR光谱,与实验数据在峰位和强度上均高度吻合(PCC=0.81)。该技术为复杂催化体系的高通量光谱分析提供了新范式。

  
红外光谱就像是分子的“指纹”,能够揭示物质的微观结构和化学反应过程。在催化研究、材料科学和生物化学等领域,科学家们通过分析红外光谱来识别反应中间体、探测活性位点,从而指导新材料的开发和反应路径的优化。然而,实验测得的光谱往往像一团乱麻,峰位偏移、信号重叠(即谱线拥挤)时有发生,解读起来非常困难。这时候,理论模拟就成了不可或缺的“翻译官”。
传统的模拟方法主要依赖基于密度泛函理论(DFT)的从头算分子动力学(AIMD)。这种方法虽然能够通过记录分子偶极矩随时间的变化来计算光谱,从而考虑非谐效应,但其计算成本极其高昂。进行一次准确的AIMD模拟,往往需要计算数十万次DFT,限制了其所能研究的分子大小和复杂程度。更精细的量子力学方法虽然能更好地考虑核量子效应,但其计算量随着原子数增加呈指数级增长,对于稍大一点的体系就变得不切实际。因此,开发一种既准确又高效的红外光谱预测方法,成为了计算材料科学领域一个迫在眉睫的挑战。
近年来,机器学习势函数(MLIP)的出现让人们看到了曙光。MLIP能够从DFT计算中学习势能面和原子间作用力,一旦训练成功,其运行速度比DFT快数千倍,可以用于进行长时间的分子动力学(MD)模拟。但是,构建一个高质量的MLIP模型,需要大量且具有代表性的训练数据,而传统的数据生成方法往往盲目采样,产生大量冗余信息,既浪费计算资源,又未必能提升模型性能。
为了解决这一系列问题,发表在《npj Computational Materials》上的这项研究,提出了一个名为PALIRS (Python-based Active Learning Code for Infrared Spectroscopy)的创新框架。该研究团队开发了一种结合主动学习的智能工作流程,旨在用最小的计算成本,训练出能够精准预测红外光谱的机器学习模型。
研究人员开展这项研究,核心是开发并验证PALIRS框架。他们选取了24个与催化相关的小有机分子作为研究对象。研究过程主要包括几个关键步骤:首先,利用主动学习策略高效构建训练MLIP所需的数据集;其次,训练专门的机器学习模型来预测偶极矩;然后,利用训练好的MLIP进行机器学习辅助的分子动力学(MLMD)模拟,生成轨迹并计算红外光谱;最后,系统评估所预测光谱的准确性、效率、温度依赖性以及模型在不同分子上的泛化能力。
研究得出的结论令人振奋。PALIRS框架成功地将训练每个分子所需的数据量降低至传统AIMD方法的百分之一,同时预测的光谱与AIMD参考结果高度一致(平均PCC=0.80),甚至在某些方面与实验数据符合得更好(平均PCC=0.81)。该方法能准确捕捉光谱的温度依赖性,并展现出对结构相似分子的良好泛化能力。这项工作为高通量、低成本的振动光谱模拟奠定了坚实基础,有望加速复杂催化系统和新材料的设计与发现。
为开展研究,作者主要应用了几项关键技术:基于神经网络的机器学习势函数(MACE模型)用于替代DFT计算能量和力;主动学习循环策略,通过不确定性量化(采用模型委员会ensemble)动态选择最具信息量的构象扩充训练集,极大提高了数据效率;基于分子动力学轨迹和偶极矩自相关函数的红外光谱计算流程;以及用于定量评估光谱相似性的皮尔逊相关系数(PCC)和Wasserstein距离(WD)等指标。所有DFT计算均使用FHI-aims软件包在PBE泛函水平完成。
结果
计算工作流程
为了用MLIP进行基于MD的红外光谱预测,需要两个核心要素:用于精确MLMD模拟的MLIP,以及用于计算偶极矩自相关函数(进而得到红外光谱)的准确偶极矩预测。因此,对能量、力和偶极矩的准确描述至关重要。
本研究介绍了一种四步法来预测24种小有机分子的红外光谱。该工作流程如图1a所示,包括以下步骤:(1) 通过主动学习方案,利用选定的分子准备初始几何结构数据集,并逐步改进MLIP。获得最终MLIP和数据集后,(2) 训练一个额外的ML模型来专门预测每个结构的偶极矩。(3) 使用MLIP提供能量和力,进行MLMD生产运行,并用ML模型计算轨迹上所有结构的偶极矩。最后,(4) 通过计算偶极矩的自相关函数导出红外光谱。
我们的四步法(图1a)原则上适用于任何能提供内在不确定性估计的MLIP。不确定性估计是PALIRS主动学习策略的关键特征。由于像MACE这样的基于神经网络的MLIP本身不具备不确定性量化功能,我们采用三个MACE模型的委员会来近似不确定性。
初始MACE MLIP是在每个分子的简正振动模式上采样的分子几何结构上训练的。这些几何结构通过使用FHI-aims代码进行的DFT计算获得。虽然这些初步的MLIP提供了能量和力的基础表示,但由于训练集相对较小(最初仅包含2085个结构),其准确性仍然有限。这种初始模型的普通性能在图2的学习曲线中显而易见。
为了系统地改进MLIP,我们采用了一种主动学习策略(图1b),通过MLMD模拟迭代地扩展训练集。采集策略从每次MLMD运行中选择力预测不确定性最高的分子构型,确保数据集富含信息量最大的结构,同时最大限度地减少冗余。为了在采集过程中平衡探索和利用,MLMD模拟在三个不同的温度下进行:300K(低)、500K(中)和700K(高)。最终数据集经过40次主动学习迭代后,包含16,067个结构,每个分子大约600-800个结构。
需要指出的是,主动学习方案侧重于优化MLIP中的能量和力预测。一个单独的、同样基于MACE框架的ML模型被专门训练用于预测红外光谱计算所需的偶极矩。
主动学习性能评估
为了评估主动学习过程中MLIP的改进,我们将其预测与预定义的谐波频率测试集进行比较。这些频率是简正模式采样的副产品,包含了本研究中所有24种有机分子。谐波频率作为一种有效的验证手段,因为它可以用MLIP快速计算,并直接与DFT参考值进行比较。MLIP计算与DFT计算的谐波频率之间的平均绝对误差(MAE)等定量指标,为模型准确性及其在描述所研究分子方面的进展提供了可靠的度量。
如图2a所示,在每次迭代中,我们使用委员会中的第一个MLIP评估谐波频率,并使用MAE和均方根误差(RMSE)量化其准确性。初始模型仅基于简正模式采样的分子构型进行训练,起始MAE为15.36 cm-1,RMSE为23.45 cm-1。随着主动学习的进行,这些误差逐渐减小,表明MLIP得到改进。大约30次迭代后,MAE达到平台期,表明通过当前采样策略添加更多数据已无法进一步改进模型。我们最终在40次迭代后停止主动学习循环,谐波频率的最终MAE为4.37 cm-1,RMSE为10.51 cm-1
为了评估MLIP在预测能量和力方面的性能,我们使用第40次(最终)迭代中委员会的第一个MLIP模型,从一个100 ps、300 K的MLMD运行中构建了一个新的测试数据集。相应的MAE和RMSE如图2b、c所示,显示误差随着每次迭代稳步下降。在最终迭代中,MLIP能量预测的MAE为2.64 meV,RMSE为3.61 meV;力预测的MAE为3.96 meV/?,RMSE为5.69 meV/?。这些低误差凸显了训练过程中加入额外数据后模型准确性的显著提高。
随后,偶极矩ML模型在通过主动学习工作流程获得的最终数据集上进行训练。该模型在与能量和力评估相同的测试数据集上的准确性如图2d所示。ML模型表现出强大的预测性能,MAE为7.62 mDebye,RMSE为12.46 mDebye。这些结果以及能量和力预测的相应误差总结在表1中。
Property
Unit
Test data
MAE
RMSE
Energy
meV
2.64
3.61
Force
meV/Ang
3.96
5.69
Dipole moment
mDebye
7.62
12.46
通过主动学习探索构象空间和能量空间
PALIRS表现出高效率,其特点是在训练数据点数量显著少于传统AIMD数据集的情况下,仍能实现极低的误差率。为了探究其背后的原因,我们使用应用于多体张量表示(MBTR)的主成分分析(PCA)可视化了构象空间(图3a),并检查了相应的能量分布(图3b)。
PCA图显示,我们的24种小有机分子数据集形成了几个紧密分组簇。虽然一些簇是明显分离的,但许多簇紧密相邻,合并成更大的组。这表明分子之间具有结构或化学相似性,有助于MLIP学习它们的性质。该图还用不同颜色区分了初始数据、训练数据和测试数据,说明了训练数据如何通过主动学习逐步扩展,以覆盖比稀疏的初始数据集更广泛的化学空间区域。这种进展有助于采样代表性不足的构型。测试数据在整个空间中分布良好,实现了对模型性能的稳健评估。
图3b所示的能量覆盖范围定义为每个构型的总能量与其对应优化分子能量之差。最初,数据集跨越约1 eV的窄能量窗口。然而,通过主动学习,最终数据集扩展到覆盖超过1.5 eV的更宽范围,尽管数据点数量相对较少。这种仍然以零为中心的更宽分布,确保低能和高能构型都得到良好表示,有助于形成更稳健、更通用的MLIP。
来自300 K下扩展MLMD轨迹的测试数据覆盖约1 eV的能量范围,使其非常适合在红外计算相关能量范围内评估模型性能。最终训练集更宽的能量覆盖范围确保了用于红外光谱的MLMD模拟保持在MLIP和偶极矩模型的适用域内。
红外光谱计算和动力学模拟长度
为了计算红外光谱,需要在选定温度下生成分子动力学轨迹。然后通过评估轨迹上偶极矩时间导数的自相关函数来获得光谱。然而,这种方法的可靠性强烈依赖于MD模拟的长度,因为较短的轨迹可能导致噪声大或不一致的光谱特征。为此,我们首先进行了一项系统性分析,旨在确定实现光谱收敛所需的最小轨迹长度。
图4展示了气相甲醇通过DFT基AIMD模拟获得的两种不同轨迹长度(20 ps和50 ps)的红外光谱。光谱峰位在20 ps时已收敛,这与之前的发现一致,表明关键光谱特征在此时间尺度上已被很好地捕捉。然而,20 ps时的相对峰强度与实验光谱相比呈现相反趋势,并且发现其随初始分子几何结构和速度分布的不同而变化。相比之下,50 ps模拟得到的光谱与实验NIST数据更为接近。值得注意的是,实验在略高于1000 cm-1处的峰强度显著高于3000 cm-1以下的峰,这一趋势在50 ps模拟中得到了准确再现。基于这些观察,我们在所有后续红外光谱计算中(包括DFT基AIMD和基于ML的MLMD模拟预测)均采用50 ps的MD轨迹。
为了量化模拟红外光谱与实验数据之间的相似性,我们使用皮尔逊相关系数(PCC)和Wasserstein距离(WD)。PCC值范围从-1到1(1表示完全相似),而较低的WD值表示更接近的相似性,0代表完美对齐。图4中,20 ps模拟的PCC为0.68,50 ps模拟增加到0.73。这些值与先前的DFT基AIMD结果吻合良好。较长模拟带来的PCC改善强调了进行更长、计算要求更高的模拟以获取准确红外光谱预测的必要性,这也凸显了我们在PALIRS中实现的方法的效率。
PALIRS在预测红外光谱中的性能
在建立了模拟程序并且能量、力和偶极矩相对于DFT被准确再现之后,我们进入下一个关键步骤:评估训练好的MLIP和偶极矩模型在预测红外光谱方面的性能。对于红外光谱预测,我们利用了MLIP委员会。具体来说,我们使用MLIP委员会和单个偶极矩ML模型(统称为ML模型)进行了三次独立的MD模拟。对于每个MLMD轨迹,生成一个红外光谱(图5a),最终预测是三个光谱的平均值。此外,还突出了运行之间的标准偏差,表明了预测中固有的不确定性。
图5b全面比较了气相甲醇的红外光谱,包括ML预测光谱、NIST数据库的实验参考光谱以及300 K下的DFT基AIMD光谱。MLMD和AIMD结果显示出显著的一致性,主要峰和次要峰在位置和强度上都紧密对应。与实验光谱相比,预测的强度遵循相同的总体趋势,仅在峰位上观察到微小的偏移。
表2中的定量分析进一步证实了DFT和ML结果之间的偏差极小。值得注意的是,它还表明ML预测与实验数据的吻合程度甚至优于DFT基AIMD结果。ML模型的这种增强性能可归因于使用了三个独立的MLMD模拟,它们共同采样了比单个DFT基AIMD运行更广泛的构象空间。这种更广泛的采样使ML预测的红外光谱能够捕捉更广泛的分子构型,从而与实验观察结果得到更好的吻合。总体而言,ML模型在再现光谱特征方面表现出高度的保真度,与实验和DFT基光谱紧密匹配。
Comparison
PCC
WD
Exp.-DFT
0.73
0.054
DFT-ML
0.91
0.010
Exp.-ML
0.80
0.057
对其余23种有机分子计算的红外光谱可在PALIRS存储库中找到,相应的PCC和WD在补充信息中提供。统计分析总结在表3中。总体而言,ML模型在预测红外光谱方面表现出卓越的准确性,与DFT基和实验结果均高度一致。这凸显了我们的方法在显著降低计算成本的同时不牺牲预测性能的效率。利用我们的主动学习策略,每个分子只需不到1000次单点DFT计算就足以生成准确的红外光谱,而DFT基AIMD则需要超过10万次。
Comparison
PCC
δPCC
WD
δWD
Exp.-DFT
0.68
0.22
0.045
0.025
DFT-ML
0.80
0.18
0.026
0.022
Exp.-ML
0.81
0.15
0.029
0.013
ML模型在不同温度下的性能
为了进一步测试我们的红外预测能力,我们在图6中比较了甲醇在五个不同温度下的DFT基AIMD光谱和ML预测光谱。在低温和高温下,ML模型都能很好地预测谱带位置。然而,与DFT基AIMD结果相比,3000 cm-1附近的强度略有高估。不同温度下的平均PCC和WD值分别为0.93和0.003,标准偏差分别为0.046和0.001。总体而言,结果清楚地表明ML模型有效地捕捉了光谱的温度依赖性行为,在宽温度范围内展示了准确的预测。
ML模型可转移性评估
为了评估ML模型在训练数据中包含的有机物种之外的表现,我们选择了一组8个具有递增碳原子数和不同官能团的分子。使用相同的程序,我们将平均ML预测光谱与NIST数据库的实验数据进行比较。图7展示了ML模型表现最好、最差和居中的三个代表性案例。甲基胺的一致性最好,峰位和强度都与实验光谱紧密匹配。相反,对于1,3-丁二烯,频率和强度模式都出现了显著偏差。戊酸表现出中等程度的一致性,峰位和相对强度合理对应。这些结果突显了预测准确性对训练数据中是否存在相似化学环境的明显依赖性,这反映在预测光谱特征的质量上。
讨论
MLIP和偶极矩ML模型在加速小分子红外光谱预测方面展现出强大潜力。我们的结果表明,我们的主动学习策略将每个分子所需的数据量相比早期的ML方法减少了10倍,相比传统的AIMD方法减少了100倍,同时与AIMD参考光谱保持了良好的一致性。此外,PALIRS选择的训练构型有效地覆盖了构型空间,强调了主动学习能够专注于物理上有意义的变化而非冗余数据点的能力。
基于这些结果,PALIRS预测与参考光谱之间强烈的定性一致性表明,基于ML的模型可以隐式地捕捉非谐效应——这些现象使用传统的从头算方法通常难以模拟且计算成本高昂。然而,需要注意的是,与引言中讨论的量子半经典方法不同,我们的方法不包含核量子效应,其引入需要显著更高的计算成本。因此,可能无法捕捉由组合频带或费米共振等现象引起的光谱特征。但是,我们的24个分子的MLMD光谱与实验之间的平均PCC为0.81,表明总体一致性非常好,说明对于这些体系,量子效应并不起重要作用。
通过利用MLMD,PALIRS能够通过更长的轨迹实现光谱收敛,而计算成本仅为AIMD的一小部分。这种效率使其特别适合振动光谱的高通量评估,尤其是催化相关中间体的振动光谱。考虑到振动光谱的温度依赖性,我们在不同温度下评估了PALIRS,发现它能准确捕捉温度引起的峰位和强度变化。这突出了MLMD在不使用计算昂贵的AIMD模拟显式重新计算每个温度下的力的情况下,捕捉温度依赖性光谱变化的能力。然而,我们也观察到温度效应引入了细微的差异,特别是在较高温度下某些峰的展宽方面。这些差异表明,虽然基于MLMD的红外光谱有效地考虑了非谐效应,但提高训练集的多样性可以增强在极端条件下的稳健性。
虽然PALIRS在训练集中代表的小有机分子上表现出强大的性能,但其对更复杂或化学性质不同的体系的预测准确性会下降。例如,观察到的对1,3-丁二烯的较差性能可归因于训练数据中C=C键的有限代表性(乙烷是唯一的此类例子),限制了模型向类似键合环境泛化的能力。相反,像甲基胺和戊酸这样含有训练数据中充分代表的氮和氧官能团的分子,能够以合理的准确性进行预测。增强训练集以纳入更广泛的键合模式和化学多样性将有助于改进泛化能力。在这方面,迁移学习为调整PALIRS以适应新的分子家族提供了一条有前途的途径。
泛化能力的局限性也反映在MLMD模拟过程中力预测的不确定性上。对于处于训练分布内的分子,整个MLIP委员会的最大力不确定性保持在较低水平,约为10-5 eV/?。然而,对于甲基胺,它增加到10-3 eV/?,对于1,3-丁二烯,甚至达到10-1 eV/?。尽管存在这些升高的不确定性,预测的红外光谱仍然一致,表明力预测的变化并不一定会转化为光谱偏差。这也从图7中显示的标准偏差可以明显看出。
为了澄清这些局限性的起源,我们分析了势能面(PES)与偶极矩面(DMS)的相对可转移性。对于小的极性分子,如甲基胺、异丙醇和丙酮,光谱被准确预测,微小的偏差主要源于PES而非DMS的限制。对于长链极性分子,如戊胺和戊酸,准确性的降低源于PES和DMS限制的共同作用。相反,对于具有双键的非极性分子,如1,3-丁二烯和苯,PES是误差的主要来源,而DMS保持相对可转移。这些观察结果强调,提高训练集中PES的覆盖范围对于增强泛化能力至关重要,特别是对于化学性质不同或更大的体系,而DMS通常在具有相似官能团的分子间保持合理的可转移性。
最近,在更大数据集上预训练的MLIP,如MACE-off,正在展示通用MLIP在原子模拟中日益增长的成功。相比之下,我们的PALIRS方法是在PBE泛函水平上开发的,选择与催化研究中广泛采用的做法保持一致。重要的是,PALIRS框架并不限于我们对DFT泛函的选择;它可以系统地适用于训练跨越不同分子家族且在任意电子结构理论水平上的MLIP。
MACE-OFF MLIP在计算多样化分子数据集的谐波红外光谱方面展示了高精度,但其对有限温度MD基红外光谱的性能尚未得到系统评估。在这方面,尽管PALIRS主要针对MLMD预测的红外光谱进行了优化,但训练好的MACE模型也可以应用于谐波近似中,如图S7和表S2所示,它与DFT参考结果非常一致。值得提及的是,谐波近似导致在与实验光谱比较时需要频率缩放因子。
因此,我们的主要比较集中在有限温度MD基红外光谱上,这与实验条件更直接相关。为此,我们使用我们的ML模型和两个不同版本的MACE-off模型(MACE_off23和随后的MACE_off24)计算了甲醇和乙醇的红外光谱,并将它们与NIST的实验光谱进行了比较。定量相似性度量表明,我们的ML模型对两种分子都一致地实现了比两个MACE-off模型更高的PCC值。MACE-off光谱再现了主要的振动特征,但与实验相比表现出系统的蓝移,这可能是由理论水平或训练数据引起的。这表明需要对通用MLIP进行彻底的测试和后续的微调才能用于MD基红外光谱,而PALIRS方法可以轻松适应用户的需求。
结论
总之,我们证明了将主动学习与MLIP和偶极矩模型相结合,在预测小有机分子红外光谱方面的有效性。PALIRS训练的模型达到了与DFT基AIMD相当或
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号