分子基序学习(MotiL):一种面向分子属性预测的预训练新范式
《Nature Communications》:Molecular Motif Learning as a pretraining objective for molecular property prediction
【字体:
大
中
小
】
时间:2025年11月28日
来源:Nature Communications 15.7
编辑推荐:
语
本文针对现有分子表示学习方法难以有效捕捉功能基序(motif)化学语义的局限性,提出了一种名为MotiL的无监督预训练框架。该研究通过扩散模型增强图神经网络对分子全局结构的感知,结合双尺度训练机制整合局部基序特征,在16个小分子和蛋白质基准数据集上显著提升属性预测精度(如QM7数据集误差降低10.1%),为药物发现和生物信息学提供了更精准的分子表示工具。
在药物研发和生物医学研究中,准确预测分子属性(如毒性、渗透性、蛋白结合能力)是加速候选化合物筛选的关键。然而,传统实验方法成本高昂且周期长,而现有基于深度学习的分子表示学习方法存在明显缺陷:对比学习方法依赖随机子图增强,可能破坏功能基团(如苯环、羧基)的化学完整性;预测学习方法通过掩码子图进行训练,同样会损害基序的结构信息。这些方法难以在表示空间中保持分子支架(scaffold)和功能基序的化学一致性,限制了其在复杂生物场景下的泛化能力。
为解决这一挑战,清华大学刘子洋、王超琨等人于《Nature Communications》发表研究,提出分子基序学习(Molecular Motif Learning, MotiL)框架,将基序表示学习作为预训练核心目标,而非辅助工具。该框架通过三阶段设计——扩散模型增强的全局结构感知、双尺度局部特征整合、任务特异性微调——实现了对小分子和蛋白质的高精度属性预测。
研究团队首先利用扩散分子模型(DiffMoM)对图神经网络(GNN)编码器进行预热,通过向分子图的邻接矩阵添加高斯噪声并学习去噪过程,提升模型对结构扰动的鲁棒性。随后,在双尺度训练阶段,对同一GNN编码器进行网络剪枝生成差异化编码器,要求二者对同一分子或其基序产生相似表示,不同分子或基序表示相互区分。最终,基于分类(如交叉熵损失)或回归(均方误差)任务对预训练模型微调。实验使用ZINC15数据库的25万未标记分子进行预训练,并在MoleculeNet的14个小分子数据集和蛋白质GO/EC注释任务上评估,采用基于分子支架的数据分割策略验证泛化能力。
在生理学、生物物理学、物理化学和量子力学领域的14个小分子数据集上,MotiL在分类任务(如血脑屏障通透性BBBp、毒性Tox21)和回归任务(如溶解度ESOL、量子性质QM7/8/9)中全面超越现有最佳方法(如KANO、GROVER)。例如,在QM7数据集上,MotiL将平均绝对误差(MAE)从对比方法的56.4降低至50.7,相对提升10.1%;在涉及药物肝毒性的SIDER数据集上,其ROC-AUC达到65.6%,优于所有基线模型。
MotiL被扩展至蛋白质宏观分子任务,在基因本体(GO)术语预测和酶分类(EC)编号预测中,其Fmax评分在GO生物过程(BP)、分子功能(MF)、细胞组分(CC)子任务上分别达到44.4%、64.0%、48.9%,较最优基线CDConv提升2.2%~6.9%。在EC预测中,MotiL的Fmax为87.9%,显著优于基于3D卷积和几何学习的传统方法,表明其能有效捕捉蛋白质三维结构与功能的关联。
通过t-SNE和UMAP可视化显示,MotiL学习的表示空间中小分子按其支架(如萘、巴比妥酸)清晰聚类(Davies-Bouldin指数低至0.21),且结构相似性(基于RDKit指纹)高的分子对在空间中距离更近。此外,功能基序(如含碳氧双键的羧基、羰基)表示相似性超80%,而结构差异大的氨基酸(如芳香环与直链)表示显著区分,证明双尺度训练机制成功保留了基序的化学语义。
在活性悬崖(activity cliff)样本分析中,MotiL在BBBp和SIDER数据集上对KANO的错误预测纠正率达70.2%和68.3%。例如,链霉素因分子量(581 Da)和多重亲水基团难以穿透血脑屏障,KANO误判为可渗透,而MotiL正确分类;厄洛替尼因芳香环易形成肝毒性代谢物,MotiL准确识别其风险。
MotiL通过将分子基序学习确立为预训练核心目标,首次在统一框架内实现了小分子与蛋白质的高精度属性预测。其扩散模型增强和双尺度对齐机制解决了现有方法在基序保留与结构鲁棒性间的平衡难题,在药物代谢属性(如BBB通透性、肝毒性)和蛋白功能注释任务中展现出强大潜力。未来工作可探索更先进的生成模型与表示学习的结合,推动新分子设计与个性化医疗的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号