变压器生成的原子嵌入,以提高预测精度的晶体性质与机器学习

【字体: 时间:2025年02月01日 来源:Nature Communications

编辑推荐:

  原子表示对于构建可靠和可转移的机器学习模型至关重要。在此,作者提出了基于变压器的通用原子嵌入来提高晶体性质的预测精度。

  

复旦大学科研团队:利用 Transformer 生成原子嵌入提升晶体性质预测精度


在材料科学领域,加速新型晶体材料的发现对推动清洁能源、信息处理等多种技术发展至关重要。复旦大学的研究人员在《Nature Communications》期刊发表了题为 “Transformer-generated atomic embeddings to enhance prediction accuracy of crystal properties with machine learning” 的论文,为晶体材料研究开辟了新路径。该研究通过开发 CrystalTransformer 模型生成通用原子嵌入(ct-UAEs),显著提升了晶体性质预测精度,对材料科学的发展具有重要意义。

一、研究背景


深度学习和机器学习的蓬勃发展为材料科学研究带来了新机遇。在材料性质预测方面,诸多深度学习算法和模型,如晶体图卷积神经网络(CGCNN)、材料图网络(MEGNET)、原子线图神经网络(ALIGNN)等应运而生,并在学习多保真度数据、发现稳定无铅混合有机 - 无机钙钛矿等应用中取得成功。

在固态理论中,晶体中原子的特征和空间拓扑排列决定其性质,这一信息在深度学习算法中被封装在 “原子嵌入” 中。原子嵌入源于自然语言处理技术,即将原子性质数字化输入晶体模型。合适的原子嵌入能加速模型训练、提高预测精度并提供可解释信息。然而,当前材料信息学领域多聚焦于晶体模型架构设计,对原子嵌入的研究较少。常用的 0 - 1 嵌入生成的稀疏嵌入矩阵不利于模型信息提取,难以满足精确预测材料性质的需求。

近年来,基于 Transformer 的训练方法和预测模型在化学分子性质和结构预测领域取得进展,其能够有效处理原子相互作用和捕捉三维结构。受此启发,复旦大学研究团队开发了 CrystalTransformer 模型,旨在生成更有效的通用原子嵌入,以提升晶体性质预测精度。

二、研究材料与方法


(一)CrystalTransformer 模型


该模型以 Transformer 算法为核心构建。输入为批量大小为 batch 的 N 个原子,每个原子具有 L 个特征(L 为原子种类的独热编码)以及 batch×N×D 大小的坐标输入(D = 3)。首先,模型对坐标输入进行平移和旋转变换以增强拓扑结构,接着分别对原子特征和坐标进行线性变换,将其嵌入到维度为 c 的空间中。然后,将变换后的原子和位置特征按特征维度拼接,再通过多头 Transformer 编码器进行处理。编码器包含多层多头自注意力机制和前馈神经网络,对输入序列进行处理和更新。最后,模型从输出序列中选取第一个标记,通过线性层输出预测的材料性质。

(二)数据与训练


研究使用了多个材料数据库,如 Materials Project(MP)及其扩展版本 MP*,还有 JARVIS、MC3D 等数据集。针对不同数据库,按一定比例划分训练集、验证集和测试集。模型训练时,前端模型(如 CrystalTransformer、CGCNN 等)在扩展的 MP * 数据集上进行预训练,重点关注带隙能量()和形成能()预测任务。之后,将提取的原子嵌入集成到 CGCNN 后端模型中,并在原始 MP 数据集上进行训练。同时,研究采用多任务学习(MTL)方法,通过加权损失函数对不同任务进行训练,优化模型参数,以提高原子嵌入的通用性。

(三)评估指标


采用平均绝对误差(MAE)评估模型预测性能,(决定系数)用于衡量模型拟合优度。通过比较不同模型在预测形成能、带隙等性质时的 MAE 和值,评估模型性能优劣以及原子嵌入的有效性。

三、研究结果


(一)通用原子嵌入


研究人员对比了不同模型生成的原子嵌入张量在预测材料形成能和带隙方面的性能。以 MP 和 MP * 数据集为例,在不同前端模型预训练的原子嵌入中,使用 ct-UAEs(CT - CGCNN)的模型表现最佳。相较于未使用 ct-UAEs 的模型,其在预测形成能时 MAE 降低了 14%,预测带隙时 MAE 降低了 7%,且在这两个性质的预测上均优于最佳的 GNN 前端嵌入(CG - CGCNN)。在其他模型如 MEGNET 和 ALIGNN 中应用 ct-UAEs,同样提升了预测精度,表明 ct-UAEs 能有效捕捉原子特征,提升晶体性质预测的准确性。

(二)ct-UAEs 的转移性


为探究 ct-UAEs 在不同性质和任务上的性能,研究人员进行了任务间原子嵌入转移实验。如将任务生成的原子嵌入应用于带隙预测,任务生成的嵌入应用于形成能预测。结果显示,带隙任务训练的嵌入转移到形成能任务时,MAE 降低了 6%;形成能任务训练的嵌入应用于带隙预测时,MAE 也有所降低。

多任务生成的嵌入(MT)表现更优。例如,基于形成能和带隙两个性质训练的嵌入(MT@2p),转移到 CGCNN 模型后,在预测形成能和带隙时,MAE 分别为 0.068 eV/atom 和 0.357 eV,相比基线 CGCNN 有显著提升。引入更多性质(如总能量、总磁化强度)的多任务嵌入(MT@3p、MT@4p)进一步优化了部分性能,但由于物理性质差异,MT@4p 中引入磁化强度导致带隙预测 MAE 略有增加。

在不同数据库测试中,CT - CGCNN 模型在 Jarvis 数据集上,预测形成能和带隙的 MAE 分别降低了 17.5% 和 12.8%;在 MC3D 数据集上,CGCNN 模型预测总能量的 MAE 降低了 3.9%,MEGNET 模型降低了 6.8%,ALIGNN 模型 MAE 基本不变。在基于 MPtrj 数据集训练的能量守恒原子间势(IAP)模型中,添加 ct-UAEs 后,CHGNet 模型的力损失显著降低 14.8%,应力损失和能量损失也有所下降;M3GNet 模型总损失和能量损失轻微降低;但 MACE 模型损失未减少。这表明 ct-UAEs 在不同数据库和任务上具有一定的通用性和有效性,但在部分模型上效果存在差异。

(三)可解释性


研究人员利用 UMAP 聚类方法将 ct-UAEs 投影到二维空间,并结合 K-means 聚类将原子分为三类(Class A、Class B、Class C),t-SNE 聚类和社区检测方法作为补充对比。通过肘部图和轮廓系数图确定最佳聚类数为 3 或 4。

基于聚类结果,对 Materials Project 中的氧化物化合物进行分析。不同类别元素的氧化物在形成能、带隙和磁化强度上表现出显著差异。Class A 元素(如 IIA、IIIB、IVB 族)的氧化物形成能集中在 -2.5 eV/atom 至 -4.0 eV/atom,化学稳定性较高;带隙集中在 3 eV 至 6 eV,为宽带隙半导体;磁化强度几乎都集中在 0 μB。Class B 元素(如 VB 至 VIIIB 族)的氧化物形成能范围最广;带隙集中在 0.5 eV 至 2.5 eV,为窄带隙半导体;部分元素磁化强度大于 5 μB,表现出明显的铁磁行为。Class C 元素(如 IA、IB、IIB 族及主族金属和非金属)的氧化物形成能和带隙处于中间范围;磁化强度主要分布在 0 μB 至 5 μB。

通过反向训练实验,以原子半径、沸点、熔点等元素性质为训练目标,训练 Catboost 模型,结果显示模型的值均大于 0.78,表明 ct-UAEs 能与原子的物理化学性质建立紧密联系。利用 SHAP 算法确定了不同性质对应的重要特征维度,如原子半径对应 98、109 维度。通过 DTW 方法分析不同多任务性质生成的嵌入相似性,发现尽管任务不同,但嵌入基本趋势相似,如 MT@3p 和 MT@2p 模型的嵌入相似度较高,MT@4p 模型虽有差异但仍有足够相似性,且各嵌入的标准差较为稳定。

(四)在混合有机 - 无机钙钛矿晶体中的应用


混合有机 - 无机钙钛矿(HOIP)材料因合成复杂,缺乏高质量大数据库,传统深度学习模型难以有效研究。研究人员合并两个 HOIP 材料数据集后,使用 ct-UAEs 预测其形成能。结果显示,CGCNN 模型预测 HOIP 材料形成能的 MAE 从 0.054 eV/atom 降至 0.046 eV/atom,提升了 16%;MEGNET 模型的 MAE 从 0.032 eV/atom 降至 0.021 eV/atom,提升近 34.38%。这表明 ct-UAEs 在处理数据稀缺的 HOIP 材料性质预测时具有显著优势,为该领域研究提供了新途径。

四、研究结论与讨论


复旦大学研究团队开发的 CrystalTransformer 模型生成的通用原子嵌入(ct-UAEs)在提升晶体性质预测精度方面成效显著。通过一系列实验表明,ct-UAEs 能够精准捕捉复杂原子特征,在多个数据库和不同模型上均展现出良好性能,且具有一定的转移性,可有效应用于不同性质预测任务。

在可解释性方面,通过聚类分析,研究人员发现基于 ct-UAEs 的元素分类与传统周期表分类不同,且不同类别元素与晶体性质存在合理联系,为理解原子特征与晶体性质关系提供了新视角。在数据稀缺的混合有机 - 无机钙钛矿材料研究中,ct-UAEs 同样大幅提升了形成能预测精度,为这类材料的研究和开发提供了有力工具。

该研究成果不仅为晶体材料性质预测提供了更准确的方法,还为材料科学领域的深度学习应用奠定了基础,有望加速新型晶体材料的发现和开发,推动相关技术领域的发展。未来研究可进一步优化 CrystalTransformer 模型,探索 ct-UAEs 在更多复杂材料体系中的应用,以及深入挖掘原子嵌入与材料性质之间的潜在关系,为材料设计和创新提供更强大的理论支持和技术手段。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号