基于机器学习的发现:从蘑菇中提取的抑制剂能够靶向结核分枝杆菌(Mycobacterium tuberculosis)的InhA蛋白
该方法结合了定量结构-活性关系(QSAR)分析、分子对接以及分子动力学模拟技术
《Journal of Molecular Graphics and Modelling》:Machine Learning–Driven discovery of mushroom-derived inhibitors targeting InhA of
Mycobacterium tuberculosis: An integrated QSAR, molecular docking and molecular dynamic simulation approach
编辑推荐:
抗结核天然产物的AI辅助筛选研究:基于InhA酶的QSAR模型与蘑菇代谢物虚拟筛选
Karma Wangchuk | Mudassar Fareed Awan | Syeda Nazish Sohaib | Abdul Basit | Biniyam Prince Danan | Laiba Nadeem | Guendouzi Abdelkrim | Aisha Khalid | Khursheed Muzammil
不丹皇家大学自然资源学院食品科学与技术系,不丹
摘要
结核分枝杆菌 是导致结核病(TB)的病原体,该疾病仍然是全球范围内的重大健康问题。多重耐药细菌的出现使情况更加恶化,现有的治疗方法效果逐渐减弱。InhA是一种参与分枝菌酸生物合成的关键酶,在抗结核治疗中被证实是一个有效的治疗靶点。本研究旨在探索天然物质中对抗结核病的化学多样性。从ChEMBL数据库中检索出经过实验验证的抑制剂,并结合九种化学特征和严格的特征选择方法,建立了基于机器学习的QSAR模型。最优的RF–SVM-RFE模型表现出较高的预测性能(准确率=0.953,ROC_AUC=0.971),并用于对蘑菇代谢物进行虚拟筛选。排名前六的化合物(包括Inoscavin A和Schizine A)显示出显著的结合亲和力(?11.7至?10.5 kcal/mol),并在分子对接和分子动力学模拟中表现出稳定的相互作用网络。可解释性人工智能(SHAP和LIME)揭示了驱动活性的基本结构基序,增强了化学结果的可解释性。这些发现为抗结核药物开发提供了有前景的天然骨架,并强调了基于人工智能的策略在加速天然产物治疗研究中的重要性。
引言
结核分枝杆菌 是结核病(TB)的致病菌,每年导致数百万人死亡[1,2]。多重耐药(MDR)和广泛耐药(XDR)结核病的出现大大降低了标准治疗的效果[3]。这凸显了开发针对多种机制的有效新药的必要性。天然产物一直是发现和开发治疗药物的基本来源。近年来,由于蘑菇具有广泛的药用特性和生物学潜力,因此受到了广泛的科学关注[4]。这些真菌产生的次级代谢物具有多种生物活性,包括抗菌、免疫调节、抗炎和抗氧化作用[4]。
多项研究表明,来自灵芝 [5]、平菇 [6]、香菇 [7]和冬虫夏草 [8]等物种的提取物及其成分在体外对结核分枝杆菌具有抑制作用。这些生物活性成分——尤其是三萜类、多糖和酚类化合物——可能通过多种机制发挥其抗菌作用,包括破坏分枝杆菌细胞壁、抑制关键酶活性以及调节宿主免疫反应[9,10]。尽管有这些积极的发现,但对蘑菇衍生物抗结核作用的特定生化途径仍缺乏全面了解。
计算方法的最新发展显著加速了药物发现过程,特别是通过将机器学习(ML)技术与定量结构-活性关系(QSAR)建模相结合[11]。基于ML的QSAR方法能够处理大规模的生物活性数据集,从而识别化学结构与生物效应之间的关键联系,进而加快新型药物候选物的发现。在结核病治疗中,InhA是一个关键靶点,它是一种烯酰酰基载体蛋白还原酶,对于分枝菌细胞壁的形成至关重要[12]。抑制InhA的活性可以阻止细胞壁的合成,从而削弱结核分枝杆菌 的生存能力,使其成为创新抗结核疗法的主要靶点[13]。
在本研究中,我们基于经过实验验证的InhA抑制剂建立了ML驱动的QSAR模型。利用丰富的蘑菇衍生物化合物库,我们进行了虚拟筛选,以识别具有预测抗结核活性的新骨架。通过结合蘑菇的化学多样性和现代机器学习的预测能力,我们的方法为结核病天然产物药物发现提供了新的见解。结果不仅支持了蘑菇代谢物作为抗菌剂的潜力,还展示了一种可扩展的计算流程,用于探索天然产物在抗感染研究中的应用。
数据准备
针对
结核分枝杆菌 的InhA蛋白的抑制剂及其相应的SMILES结构和实验确定的生物活性值(IC
50 )来自ChEMBL数据库(最新版本;
https://www.ebi.ac.uk/chembl/ )[14]。ChEMBL是一个知名且广泛使用的生物活性化合物及其相关药理数据存储库。初始数据集包含457个条目,其中标注了针对InhA蛋白的IC
50 值。
为确保数据质量和一致性,
特征选择
初始特征矩阵包含10,145个来自九种不同化学特征的描述符。通过使用低方差阈值过滤器来减少高维度的影响并消除冗余,特征数量减少到2673个。F-score排名技术筛选出最显著的描述符,并保留前1000个特征用于进一步研究。我们使用了三种RFE算法——SVM-RFE、RF-RFE和XGBoost-RFE——同时进行特征选择。
结论
本研究提供了一种全面而综合的计算方法,用于开发针对结核分枝杆菌 InhA的蘑菇衍生物抑制剂。通过利用基于机器学习的QSAR建模、彻底的特征选择和先进的分子对接技术,我们成功识别出几种具有高预测抗结核活性的天然产物骨架。结合SVM-RFE特征选择的随机森林分类器表现出优异的预测性能。
CRediT作者贡献声明
Karma Wangchuk: 撰写初稿、进行形式分析、数据管理、概念构思。
Mudassar Fareed Awan: 撰写初稿、进行形式分析、数据管理。
Syeda Nazish Sohaib: 数据可视化、软件开发、进行形式分析。
Abdul Basit: 撰写初稿、方法论设计。
Biniyam Prince Danan: 进行形式分析。
Laiba Nadeem: 撰写、审稿与编辑、项目监督、调查、概念构思。
Guendouzi Abdelkrim: 审稿与编辑、形式审查。
伦理声明和参与同意
不适用。
数据可用性声明
数据可向相应作者索取。
出版同意
所有作者均同意当前的手稿形式并同意提交。
资助
作者感谢大学高等教育基金通过项目编号CL/CO/A/7,在
King Khalid University 的中心实验室研究支持计划下资助了这项研究工作。
利益冲突声明
作者声明没有利益冲突。
致谢
作者感谢大学高等教育基金通过项目编号CL/CO/A/7,在
King Khalid University 的中心实验室研究支持计划下资助了这项研究工作。