HNF-DDA:开启药物 - 疾病关联预测新征程,助力药物研发新突破

【字体: 时间:2025年04月17日 来源:BMC Biology 4.4

编辑推荐:

  为解决现有药物 - 疾病关联(DDA)预测方法忽视生物实体全局关系信息及复杂关联结构的问题,研究人员开展了 “HNF-DDA: subgraph contrastive-driven transformer-style heterogeneous network embedding for drug–disease association prediction” 的研究。结果表明 HNF-DDA 优于多种先进方法,对药物重新定位有重要意义。

  在生物医药领域,药物研发的漫长周期和高昂成本一直是困扰科研人员的难题。一款小分子药物从设计到获批上市,平均需要 15 年时间,投入约 20 亿美元 ,而且新药临床试验的失败率高达 90%。2022 年,美国食品药品监督管理局(FDA)仅批准了 37 种新药,难以满足日益复杂的疾病治疗需求。在这样的背景下,药物重新定位(drug repositioning)成为了加速药物研发的重要策略,它能为已批准的临床药物找到新的适应症,避免复杂且昂贵的药物设计过程和高失败率的临床试验。利用机器学习模型预测潜在的药物 - 疾病关联(Drug–Disease Association,DDA)可以大幅降低传统实验的人力和物力成本,因此,计算方法预测 DDA 在药物研发中变得至关重要。
然而,现有的 DDA 预测方法存在诸多局限。基于药物或疾病的方法仅关注药物和疾病之间的直接关联,忽略了涉及其他生物实体(如蛋白质)的生物学机制。而基于多源异质数据的方法中,路径基方法依赖局部信息,提取高阶结构的能力有限;网络嵌入基方法虽能整合邻域节点信息,但忽略了节点间的全对消息传递;知识图嵌入基方法在映射实体和关系时可能会丢失结构和语义信息。

为了解决这些问题,湖南大学计算机科学与电子工程学院等机构的研究人员开展了相关研究。他们提出了一种名为 HNF-DDA(subgraph contrastive-driven transformer-style heterogeneous network embedding for drug–disease association prediction)的子图对比驱动的 Transformer 式异质网络嵌入模型,用于 DDA 预测。该研究成果发表在《BMC Biology》上。

研究人员为开展此项研究,主要运用了以下关键技术方法:首先构建生物医学异质网络,网络中的节点代表药物、疾病、蛋白质等生物实体,边代表它们之间的关系。然后利用生物语言模型计算初始嵌入,针对不同类型的生物实体,分别使用 MolFormer、ProtBert 和 BiomedBERT 等模型获取其初始特征。接着通过异质网络嵌入模块,采用全对消息传递编码器和子图结构捕获策略,学习异质网络节点的嵌入。最后使用 XGBoost 分类器预测药物和疾病之间的关联概率。

研究结果如下:

  • 数据集:研究人员在 KEGG 和 HetioNet 两个基准数据集上评估了 HNF-DDA 模型。这两个数据集包含药物、蛋白质、疾病、通路等实体以及多种类型的关联信息。
  • 性能比较:将 HNF-DDA 与 10 种先进的 DDA 预测方法进行比较,结果显示 HNF-DDA 在平均准确率、AUROC(受试者工作特征曲线下面积)和 AUPR(精确率 - 召回率曲线下面积)等指标上均优于其他方法。例如在 KEGG 数据集上,HNF-DDA 的平均准确率达到 0.8897,AUROC 为 0.9507,AUPR 为 0.9491 ,超过了表现最佳的基线方法 DREAMwalk 和 FuHLDR。
  • 预测未知药物 / 疾病类别的潜力:通过在 KEGG 数据集上进行 DDA 拆分预测实验,比较 HNF-DDA 与其他表现较好的基线方法。结果表明,HNF-DDA 在预测未知药物或疾病类别方面具有更大的潜力,且在预测性能上具有更好的稳定性。
  • 消融实验:对 HNF-DDA 模型的异质网络编码器和学习目标模块进行消融实验,结果表明子图捕获模块和利用大语言模型学习的初始嵌入对模型性能有重要影响,全对消息传递编码器能有效捕获异质网络中节点间的信号,综合整合多源异质信息,提升预测性能。
  • 嵌入可视化:利用 T-sne 对学习到的异质网络节点嵌入进行可视化,结果显示子图捕获模块可以揭示药物和疾病之间的潜在关联,使它们在嵌入空间中更接近,有利于提高下游 DDA 预测性能。
  • 案例研究:对 KEGG 数据集中乳腺癌和前列腺癌的候选药物进行文献验证,结果显示 HNF-DDA 预测的乳腺癌前 10 名候选药物中有 9 种、前列腺癌前 10 名候选药物中有 8 种有文献支持,进一步证明了 HNF-DDA 在实际疾病应用中的可靠性。

研究结论和讨论部分指出,HNF-DDA 在不同场景下的预测准确性均优于现有模型,强调了使用大语言模型以及捕获异质网络全局和局部结构对 DDA 预测的重要性。同时,研究也指出对比学习中负样本的质量限制了预测性能,未来计划研究负样本的采样策略,以获得更准确的 DDA 预测结果。HNF-DDA 模型为药物 - 疾病预测提供了强大的工具,有助于加速药物重新定位的研究,为新药研发开辟了新的道路,对推动生物医药领域的发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号