MoleculeFormer:基于GCN-Transformer多尺度特征融合的分子性质预测新架构
《Communications Biology》:MoleculeFormer is a GCN-transformer architecture for molecular property prediction
【字体:
大
中
小
】
时间:2025年11月27日
来源:Communications Biology 5.1
编辑推荐:
本研究针对分子特征优化与模型集成难题,提出MoleculeFormer创新架构。该模型通过独立图卷积网络(GCN)与Transformer模块分别提取原子图和键图特征,结合旋转等变约束与先验分子指纹,在28个数据集上实现跨任务稳健预测。其注意力机制增强可解释性,噪声鲁棒性突出,为药物发现提供通用解决方案。
在人工智能驱动药物发现的时代,准确预测分子性质已成为加速新药研发的关键环节。尽管图神经网络(GNN)能够将分子结构表示为图,有效利用结构数据预测分子性质和生物活性,但分子特征优化和模型集成仍然是该领域面临的突出挑战。传统方法往往难以同时捕捉局部和全局特征,且对三维结构信息的利用不足,限制了预测精度的进一步提升。
针对这一瓶颈,复旦大学团队开发了MoleculeFormer——一种基于图卷积网络-Transformer(GCN-Transformer)架构的多尺度特征集成模型。该创新架构通过独立处理原子图和键图,引入旋转等变约束和先验分子指纹,成功将三维结构信息融入预测框架,在保持旋转和平移不变性的同时,显著提升了模型对分子特征的全面捕捉能力。
研究团队在28个不同数据集上系统验证了模型的通用性,涵盖疗效/毒性预测、表型筛选和ADME(吸收、分布、代谢、排泄)评估等关键药物发现任务。实验结果表明,MoleculeFormer在多个基准测试中表现出色,特别是在血脑屏障(BBB)穿透预测任务中展现了卓越的性能。其集成注意力机制不仅增强了模型的可解释性,还表现出强大的抗噪声能力,使其能够适应实验数据中不可避免的标签误差。
研究采用多模态特征融合策略:将SMILES字符串转换为原子图(节点为原子)和键图(节点为化学键),分别使用GCN进行局部特征提取,再通过Transformer编码器捕获长程依赖关系。引入等变图神经网络(EGNN)处理三维坐标信息,保持旋转和平移等变性。联合优化八种常用分子指纹(ECFP、RDKit、MACCS等)的组合权重,针对分类和回归任务特性选择最优指纹组合。所有实验均采用随机和骨架两种数据集划分方式,以10次重复实验的均值评估性能。
通过系统评估八种常用分子指纹在化学信息学任务中的表现,研究发现指纹选择与任务类型存在显著相关性。
在分类任务中,扩展连通性指纹(ECFP)表现最佳,平均AUC达0.830;而在回归任务中,MACCS键指纹以平均RMSE 0.587领先。双指纹组合实验中,分类任务最优组合为ECFP+RDKit(AUC 0.843),回归任务最优组合为MACCS+EState(RMSE 0.464)。最终确定分类任务推荐ErG+ECFP+RDKit组合,回归任务推荐EState+ErG+ECFP组合。
在10个广泛认可的药物性质预测基准数据集上,MoleculeFormer展现出卓越的综合性能。特别是在BACE(β-分泌酶结合亲和力预测)和BBBP(血脑屏障穿透性预测)数据集上,模型均取得领先的预测精度。对于HIV抑制活性预测、毒性预测(Tox21)和副作用预测(SIDER)等高难度任务,尽管数据集本身存在类别不平衡和特征复杂等问题,MoleculeFormer仍较基线模型展现出明显优势。
在乳腺癌细胞表型筛选数据集上的测试进一步验证了模型的实用性。该数据集包含13个乳腺癌细胞系和1个正常乳腺细胞系的33,757个活性化合物和21,152个非活性化合物。如表2所示,MoleculeFormer在14个细胞系上取得了0.862的平均ROC-AUC,优于Attentive FP(0.809)、MPNN(0.781)和FP-GNN(0.849)等对比模型,证明其能够有效捕捉药物对真实细胞的整体效应。
通过系统消融实验,研究量化了各模块对预测性能的贡献。结果显示:原子图与键图的融合增强了隐式分子特征的提取能力;分子指纹的引入与图结构特征形成有效互补;在涉及分子构象或空间依赖性的数据集中,EGNN模块的集成显著提升了预测性能。完整模型在HLM(人肝微粒体固有清除率)、MDR1-MDCK ER(外排比)等ADME相关任务中均取得最佳RMSE指标。
在HIV数据集上进行的标签噪声实验表明,MoleculeFormer表现出卓越的噪声鲁棒性。即使训练集和验证集中部分标签被反转,模型仍能保持稳定性能,显著优于Attentive FP、FP-GNN和XGBoost等对比方法。这一特性使其能够适应实验数据收集过程中不可避免的误差,提高了在真实场景中的实用性。
通过可视化Transformer层的注意力权重,研究展示了模型决策的化学合理性。在脂溶性(cLogP)分析中,模型注意力显著集中于疏水基团和芳香环取代基等高cLogP值区域;在氢键供体(HBD)能力评估中,键注意力权重更关注分子中的极性键,这些发现与实验化学直觉高度一致。对已知BBB穿透性优化案例的预测验证进一步表明,模型能够准确捕捉影响药物脑部递送效率的关键化学特征。
本研究提出的MoleculeFormer模型通过GCN-Transformer架构实现了多尺度分子特征的有效融合。其创新性体现在三个方面:原子图与键图的协同编码机制增强了局部和全局特征提取能力;等变约束的引入确保了三维结构信息的一致性表示;任务自适应的指纹选择策略提升了特征表达的针对性。
模型在跨领域任务中的稳健表现,证明了其处理复杂分子表示和多目标预测的泛化能力。特别是在ADME性质预测和表型筛选等关键药物开发环节的优秀性能,使其有望成为药物发现 pipeline 中的可靠工具。注意力机制提供的可解释性进一步增强了结果的可信度,为分子设计提供了直观的化学洞察。
未来工作可探索将该框架扩展到更广泛的化学空间,并结合生成模型用于分子优化设计。随着高质量化学数据的不断积累,MoleculeFormer有望在精准药物设计和材料发现中发挥更大价值。
该研究成果发表于《Communications Biology》期刊,为人工智能辅助药物研发提供了新的技术路径和方法学参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号