基于预训练分子表征的抗菌药物发现:打破困境,开辟新径

《Nature Communications》:

【字体: 时间:2025年04月11日 来源:Nature Communications

编辑推荐:

  当前,抗菌药物耐药性上升严重威胁全球健康,传统实验方法筛选抗菌化合物耗时耗力。研究人员开展 “Pre-trained molecular representations enable antimicrobial discovery” 主题研究,利用 MolE 框架结合数据构建预测模型,发现多种抗菌化合物,为加速抗生素发现提供了有效策略。

  在微生物的世界里,一场没有硝烟的战争正在悄然打响。随着抗菌药物耐药性如野火般蔓延,曾经在对抗病菌中屡立奇功的普通抗生素,如今效力大打折扣。传统实验方法在探寻新抗菌化合物时,仿佛陷入了泥沼,不仅耗时漫长,成本更是高得惊人。从庞大的化学库中筛选新型治疗药物,就像大海捞针,成功率极低,仅有 1 - 3%。而且化学库中分子的有限变异性,也使得新发现或合成化合物的验证困难重重。在这样严峻的形势下,迫切需要一种新的方法,来加速抗菌药物的发现进程,拯救在病菌威胁下的人们,这便是此次研究的重要使命。
德国慕尼黑大学统计系、亥姆霍兹慕尼黑计算生物学研究所等机构的研究人员,开启了一场意义非凡的探索之旅。他们开展了 “Pre-trained molecular representations enable antimicrobial discovery” 的研究,最终发现了一种基于预训练分子表征的抗菌发现新策略,这一成果发表在《Nature Communications》上,为抗菌药物研发领域带来了新的曙光。

研究人员在研究过程中,主要运用了以下关键技术方法:首先,利用从 PubChem 随机选取的 100,000 个未标记分子构建 MolE 预训练数据集,通过特定的分子图构建、子图去除、图神经网络(Graph Isomorphism Networks,GINs)特征提取等步骤,学习分子的通用表征;其次,结合公开的化合物 - 细菌活性数据,使用 XGBoost 算法训练预测模型,评估化合物的抗菌潜力。

下面来看具体的研究结果:

  • MolE 学习有意义的化合物表征:MolE 框架通过应用 Barlow - Twins 冗余减少方案,构建分子结构的表征。它能够识别分子中的功能基团,对具有相似结构特征的分子学习相似的表征,且与传统的扩展连接指纹(Extended Connectivity Fingerprint,ECFP4)表征不同,可捕捉更有化学意义的信息。通过 UMAP 嵌入分析发现,MolE 能将具有匹配功能基团和拓扑特征的分子在嵌入空间中放置得更近,比如含有萘基连接长碳链的化合物等。
  • MolE 实现有竞争力的分子性质预测:研究人员使用 XGBoost、随机森林(Random Forests)等模型,结合 MolE 的静态表征或微调其 GIN 层权重进行分子性质预测任务评估。结果显示,MolE 的静态表征在多数分类和回归任务中表现优异,即使在小数据集上预训练,也能实现出色的下游预测性能,尤其在标记数据较少的任务中更具竞争力。
  • MolE 实现对人类肠道微生物抗菌化合物活性的可推广预测:利用公开的数据集,研究人员训练了 MolE - XGBoost 模型,用于预测化合物对 40 种代表人类肠道微生物组的细菌菌株的生长抑制概率。该模型在预测抗菌活性方面,表现显著优于基于 ECFP4 的模型和其他使用明确化学描述符的模型,能够准确预测多种化合物的抗菌活性,包括重新发现一些已知抗生素的活性,以及预测新化合物的抗菌谱。
  • 预测正交化学库中的抗菌潜力分数:在一个包含 2,320 种 FDA 批准药物、食品同源产品和人类内源性代谢物的正交化学库中,MolE - XGBoost 模型预测出约 200 种具有高抗菌潜力(Antimicrobial Potential,AP)分数和潜在广谱活性的化合物。通过设计不同的 AP 分数变体,对化合物进行排名,发现许多预测为广谱抑制剂的化合物在文献中已有抑制细菌生长的报道,且 AP 分数与已知抗生素的抗菌活性相关。
  • 抗菌潜力分数与实验确定的最小抑菌浓度相关:研究人员收集了 158 种预测具有广谱活性的非抗生素化合物的体外最小抑菌浓度(Minimum Inhibitory Concentration,MIC)数据,发现 MolE - XGBoost 的 AP 分数与 MIC 之间存在显著负相关,即 AP 分数高的化合物具有更强的生长抑制活性,而基于 ECFP4 的模型则未发现这种相关性。
  • 预测抗菌化合物的实验验证:根据 MolE - XGBoost 的 AP 分数,研究人员选择了 6 种化合物进行实验验证。实验针对包括革兰氏阳性菌和革兰氏阴性菌在内的多种菌株进行,结果发现其中 3 种化合物对革兰氏阳性病原体金黄色葡萄球菌(Staphylococcus aureus)的生长有显著影响,如埃替格韦(Elvitegravir)在 8 μg/mL 的浓度下就能抑制其生长,奥匹卡朋(Opicapone)和依巴斯汀(Ebastine)也能在一定程度上限制其生长。

研究结论和讨论部分表明,该研究提出的计算轻量级、端到端的预测工作流程,能够有效识别新型抗菌候选化合物,并通过实验证实了多种化合物的生长抑制作用。MolE 框架利用大量未标记化学结构学习分子表征,提升了下游机器学习算法的性能,使微生物学研究人员能够在数据稀缺的情况下做出有意义的预测。虽然该研究中的化合物还需进一步研究以重新用于新的抗生素治疗,但它们为研究人类靶向药物对微生物生命的影响提供了有趣的研究对象。未来,可从增强 MolE 表征的可解释性、结合多种分子表征的集成评分方案、探索替代深度学习架构以及纳入微生物菌株的生物学特征等方向,进一步改进该框架。这一研究成果为抗菌药物的发现开辟了新的道路,有望加速新型抗菌药物的研发,应对日益严重的抗菌药物耐药性问题,具有极其重要的意义。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号