RNAmigos2:基于深度学习加速 RNA 虚拟筛选,开辟 RNA 药物研发新路径

【字体: 时间:2025年03月22日 来源:Nature Communications 14.7

编辑推荐:

  研究人员为解决 RNA 药物研发难题,开展 RNA 结构虚拟筛选研究,推出 RNAmigos2,性能优异意义重大。

  

RNA 药物研发的困境与曙光

在生命的微观世界里,RNA 正逐渐崭露头角,成为药物研发领域的一颗新星。RNA 不仅仅是遗传信息的传递者,众多非编码 RNA(ncRNA)在各种生物过程中扮演着至关重要的角色。例如,微小 RNA(miRNA)能影响约 60% 基因的表达,长链非编码 RNA(lncRNA)在肿瘤学领域展现出潜在的治疗价值,在三阴性乳腺癌等疾病中,RNA 靶点更是有望成为新的治疗方向。然而,目前 RNA 药物研发面临着诸多挑战。与蛋白质靶点相比,RNA 靶点的研究相对滞后,FDA 批准的 RNA 靶向药物寥寥无几,市面上绝大多数小分子疗法仍聚焦于蛋白质靶点。
造成这一现状的主要原因之一,是 RNA 相关数据的匮乏。蛋白质结构数据库 RCSB-PDB 拥有数十万的实验结构和数亿的预测结构,而 RNA 的相关数据仅有几千条。在蛋白质 - 配体相互作用数据库中,用于亲和力预测模型的 RNA - 配体相互作用数据也少得可怜,仅有约 100 条,远远少于蛋白质的数万个数据。此外,RNA 折叠的独特生物物理现象,使得适用于蛋白质的研究方法难以直接应用于 RNA 领域。
为了突破这些困境,来自麦吉尔大学(School of Computer Science, McGill University)、哥伦比亚国立大学(Universidad Nacional de Colombia - Sede Bogotá - Facultad de Ingeniería - Depto. de Ingeniería de Sistemas e Industrial)等多个研究机构的研究人员,开展了一项旨在加速基于结构的 RNA 虚拟筛选的研究,相关成果发表在《Nature Communications》上。

研究的关键技术方法

研究人员为开展此项研究,运用了多种关键技术方法。在数据集构建方面,从蛋白质数据库(PDB)获取包含 RNA 和配体的结构,经过一系列筛选得到 1740 个结合位点的数据集。同时,利用 RNAGlib 将 RNA 结合位点的 3D 结构转化为 2.5D 图,这种图能编码碱基对相互作用,为后续的模型训练提供数据基础。为扩充数据,研究人员通过分子对接实验,使用 rDock 对 500 种类似药物的化合物进行对接,生成了 130 多万个数据。
在模型构建上,采用编码器 - 解码器框架,包含两个编码器和两个解码器。RNA 编码器基于关系图卷积网络(rGCN),将 RNA 的 2.5D 图编码为特征向量;配体编码器则利用特定的 GCN 层架构对配体分子图进行编码。通过预训练策略,对编码器进行初始化,提升模型性能。在训练过程中,针对不同任务,如区分天然配体和诱饵、预测结合亲和力,采用不同的损失函数进行优化。

研究结果

  1. RNAmigos2 与对接软件的性能比拼:研究人员对原始 RNAmigos 编码器模型进行了多项改进,包括扩展数据集、采用有向图表示结合位点、更新模型架构和预训练策略。改进后的模型在性能上有了显著提升,在与 rDock 等对接软件的对比测试中,RNAmigos2 的 Aff 模型与 rDock 的分子间能量项相关性良好(斯皮尔曼相关系数为 0.75),且能有效区分天然配体和诱饵。在虚拟筛选(VS)任务中,Compat 和 Aff 模型分别取得了 0.844 和 0.939 的平均受试者工作特征曲线下面积(AuROC)分数,虽然 rDock 的平均 AuROC 分数略高(0.959),但 RNAmigos2 的运行时间不到 5 秒,而 rDock 则需要约 8 CPU 小时。研究还发现,不同模型的错误具有互补性,将模型结果进行集成(Mixed)后,AuROC 分数达到 0.972,超过了 rDock,建立了新的基于机器学习的 RNA 虚拟筛选工具。
  2. RNAmigos2 的预测优势:RNAmigos2 在预测效率上远超传统对接方法。在实际应用场景中,受计算资源限制,传统对接方法难以大规模筛选化合物。RNAmigos2 在处理原始 SMILES 格式数据时,仅需 5.8 核心毫秒 / 化合物,在预计算配体图的情况下,可低至 1.6 核心毫秒 / 化合物。在相同计算预算下,RNAmigos2 能筛选的化合物数量远超传统对接方法。将 RNAmigos2 与对接结合(RNAmigos++),不仅能提高筛选性能,还能增强模型对口袋特异性的识别能力。
  3. RNAmigos2 在体外实验中的表现:研究人员利用一个包含约 20,000 种化合物的体外筛选实验(ROBIN)对 RNAmigos2 进行评估。在针对 TPP、ZTP、SAMll和 PreQ1 核糖开关的筛选中,RNAmigos2 在所有四个靶点上都对活性化合物产生了正向富集(AuROC 达到 0.66,富集因子高达 5.09),能有效区分诱饵和活性化合物。其性能与 rDock 相当,但运行时间仅为 2 核心分钟,而 rDock 需要 1000 核心小时。此外,RNAmigos2 还能增加筛选出的活性化合物的化学多样性,为后续的药物优化提供更多可能。

研究结论与意义

这项研究成功开发了 RNAmigos2,为基于结构的 RNA 虚拟筛选带来了新的突破。RNAmigos2 通过创新的数据增强策略和模型设计,在速度和准确性上都超越了传统方法,能够快速有效地筛选出与 RNA 结合的化合物。这一成果不仅为 RNA 药物研发提供了强大的工具,还为后续研究开辟了新的方向。研究人员公开了所有数据集、源代码和模型权重,有望推动该领域的进一步发展。尽管该方法存在一些局限性,如需要预定义结合位点、对结合位点灵活性的建模有待完善,但随着技术的不断进步,RNAmigos2 有望与新兴的 RNA 技术和预测工具协同作用,助力挖掘更多潜在的 RNA 药物靶点,推动 RNA 疗法进入新的时代,为攻克更多疾病带来新的希望。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号