预测药物解剖治疗学分类(ATC)代码新模型:构建 ATC 代码生物学特征的创新突破

【字体: 时间:2025年03月22日 来源:BMC Bioinformatics 2.9

编辑推荐:

  研究针对 ATC 代码信息有限问题,构建生物学特征预测药物 ATC 代码,新模型性能优异,助力药物研发。

  《预测药物解剖治疗学分类(ATC)代码新模型:构建 ATC 代码生物学特征的创新突破》
在药物研发的漫长征程中,每一款新药的诞生都如同一场艰难的冒险。高昂的成本、漫长的研发周期,还有令人沮丧的低成功率,一直是困扰科研人员的难题。而药物再利用,就像是黑暗中的一道曙光,它能挖掘现有药物的新疗效,大大加速 “新药” 的发现进程。

在这个过程中,世界卫生组织制定的解剖治疗学分类(ATC)系统至关重要。它就像一把精准的尺子,将药物按照不同的层级进行分类,让科研人员能通过药物的 ATC 代码,深入了解其治疗和药理效果。也正因如此,ATC 系统成为了药物再利用研究的核心领域。

然而,现有的计算方法在探索药物与 ATC 代码的关联时,却遇到了重重阻碍。由于 ATC 代码本身可用信息有限,导致这些模型难以准确评估二者之间的关系,存在很大的提升空间。为了突破这一困境,上海海事大学信息工程学院和上海健康医学院基础医学院的研究人员开展了一项极具创新性的研究。

研究人员另辟蹊径,开发了一种全新的推理方法。他们借助随机游走重启(Random Walk with Restart,RWR)算法和置换检验,为每个 ATC 代码找到了与之高度相关的靶蛋白、结构特征和副作用,构建出了全面的生物学特征。这些生物学特征就像是 ATC 代码的 “专属档案”,里面记录了丰富而关键的信息。

基于这些生物学特征,研究人员进一步构建了新的 ATC 代码内核,并将其与现有的 PDATC-NCPMKL 模型中的 ATC 代码内核相融合,从而建立了更新版的 PDATC-NCPMKL-updated 模型。

在技术方法上,研究人员从多个公共数据库收集数据,包括 DrugBank、SIDER、STITCH 和 STRING 等,获取了药物 - ATC 代码、药物 - 靶蛋白、药物 - 结构特征、药物 - 副作用、药物 - 药物以及靶蛋白 - 靶蛋白之间的关联数据。然后,利用这些数据构建了靶蛋白相关、指纹相关和副作用相关的关联网络。在网络构建完成后,运用 RWR 算法在网络中进行随机游走,寻找潜在的关联,再通过置换检验排除假阳性结果,最终确定 ATC 代码的生物学特征,并据此构建 ATC 代码内核,用于模型预测。

接下来看看研究结果。首先是 ATC 代码的生物学特征,研究发现不同层级的 ATC 代码与靶蛋白、结构特征和副作用之间存在大量关联。例如,在 ATC 代码与靶蛋白的关联中,第二、三、四层分别有 9987、15871 和 32628 个关联。而且,大多数 ATC 代码关联的高度相关靶蛋白数量少于 100 个,随着高度相关靶蛋白数量增加,ATC 代码的数量呈下降趋势,这一结果符合逻辑,证明了研究结果的可靠性。

再看 PDATC-NCPMKL-updated 模型的性能。通过十折交叉验证评估模型性能,采用受试者工作特征曲线下面积(AUROC)和平均精度均值(AUPR)作为评价指标。结果显示,该模型在第二、三、四层的 AUROC 值分别为 0.9617、0.9688 和 0.9733,AUPR 值分别为 0.9661、0.9711 和 0.9751,所有值均超过 0.96,表明模型性能卓越,且随着 ATC 代码层级的增加,性能逐步提升。

研究人员还对 ATC 代码内核进行了消融测试。依次去除每个 ATC 代码内核构建六个不同模型进行评估,结果表明每个 ATC 代码内核都对 PDATC-NCPMKL-updated 模型的性能有积极贡献,新构建的生物学特征对于预测药物 - ATC 代码关联具有重要价值。同时发现,不同 ATC 代码内核的贡献存在差异,其中内核最为关键,而新构建的内核与现有重要内核的作用相当。

此外,研究人员探究了模型在不同药物 - ATC 代码关联组上的性能。按照相关靶蛋白、结构特征和副作用的数量对药物和 ATC 代码进行分组,形成高 - 高、高 - 低、低 - 高、低 - 低四个组。结果发现,模型在各层级的四个组上表现近乎相同,证明了模型的稳定性。

在与之前的模型进行比较时,PDATC-NCPMKL-updated 模型优势明显。NetPredATC 和 SPACE 等早期模型性能相对较差,AUROC 值难以超过 0.9;RNPredATC 和 PDATC-NCPMKL 性能较好,但也未超过 0.97。而 PDATC-NCPMKL-updated 模型所有 AUROC 和 AUPR 值均超过 0.96,部分超过 0.97,通过配对学生 t 检验也证实其性能显著优于 PDATC-NCPMKL。

研究人员还评估了仅使用指纹相关内核的模型性能。该模型性能随 ATC 代码层级增加而提升,虽然整体不如 PDATC-NCPMKL-updated 模型,但与早期仅依赖药物结构信息的模型相比,具有一定竞争力,应用范围更广泛。

在研究的结论和讨论部分,PDATC-NCPMKL-updated 模型虽然存在一些局限性,比如对药物和 ATC 代码多种属性的依赖可能限制其适用性,但它仍然具有重要意义。一方面,模型的假阳性预测结果可能揭示潜在的药物 - ATC 代码关联,为现有药物赋予新的 ATC 代码,发现新的治疗疾病;另一方面,训练好的模型可用于评估未标记的药物 - ATC 代码对,为药物研发提供有价值的参考。

总的来说,这项研究构建的 PDATC-NCPMKL-updated 模型为探索 ATC 分类系统提供了强大的工具,其推断的 ATC 代码生物学特征也将为解决其他药物相关问题贡献力量。该研究成果发表在《BMC Bioinformatics》上,为药物研发领域注入了新的活力,有望推动药物再利用研究迈向新的高度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号