参考引导迭代优化策略提升纳米孔测序碱基识别精度以推动治疗性RNA质量控制新标准

【字体: 时间:2025年10月02日 来源:Communications Biology 5.1

编辑推荐:

  本研究针对纳米孔测序中核苷酸修饰干扰碱基识别准确性的技术瓶颈,开发了一种参考引导的迭代式碱基识别优化方法(iterative basecalling)。该研究通过训练生物分子特异性的高精度碱基识别模型,成功实现了对人工修饰mRNA疫苗和天然修饰BioRNA的精确序列解析,将治疗性RNA质量控制从序列层面提升至修饰状态层面,为RNA药物的质量评估提供了突破性技术方案。

  
在生物医学研究领域,纳米孔测序技术因其能够直接读取天然RNA分子而备受关注。然而,该技术面临着一个显著挑战:核苷酸化学修饰会干扰离子电流信号,导致碱基识别(basecalling)过程产生错误。这种干扰在治疗性RNA的质量控制中尤为突出,例如mRNA疫苗中广泛使用的假尿苷(pseudouridine)和N1-甲基假尿苷(N1-methylpseudouridine)修饰,以及转运RNA(tRNA)中天然存在的多种修饰核苷酸。
传统的碱基识别器如Guppy、Bonito和Dorado虽然基于深度学习模型(包括长短期记忆网络和变压器网络),但在处理修饰密集的RNA分子时准确率显著下降。这导致在实际应用中出现序列比对错误、缺失和插入等问题,严重影响了RNA序列分析的可靠性。特别值得注意的是,近期研究表明修饰干扰会导致对mRNA疫苗完整性的错误评估,使得纳米孔测序在治疗性RNA表征中的应用有效性受到质疑。
为解决这一技术难题,研究人员开发了一种创新的参考引导迭代方法。该方法基于一个核心假设:初始碱基识别结果虽然存在误差,但已接近真实序列。通过将初步结果与参考序列比对,生成修正后的序列,再结合原始信号重新训练碱基识别模型,经过多次迭代使准确率逐步收敛。这种方法特别适用于训练生物分子特异性的高精度碱基识别器。
研究团队通过多个实验体系验证了该方法的有效性。在RNA控制寡核苷酸实验中,所有典型核苷酸都被替换为N1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)或5-甲基胞嘧啶(m5C)。使用Guppy进行初始碱基识别和比对时,发现映射率(可比对读段百分比)和比对准确率都受到严重影响。而经过迭代优化后,前两次迭代就实现了显著改进,后续迭代则带来边际效益提升。通过集成基因组学查看器(IGV)可视化证实,迭代方法清除了碱基识别错误并提高了映射率。
值得注意的是,对于m1A寡核苷酸,Guppy通常无法分析较短的测序读段,而迭代方法成功恢复了这些读段,从而能够更精确地确定读长分布——这是RNA分子质量评估的关键指标。研究人员还确认迭代过程是优化而非偏离碱基识别:通过比较训练和独立测试数据集,发现只有可忽略的过拟合差异,证明该方法确实解码了真实核苷酸序列。
在真实生物场景的应用中,研究团队分析了先前发表的18S和25S酵母核糖体RNA(rRNA)纳米孔测序数据。这些数据调查了来自不同修饰模式的突变株(CBF5_GLU和NOP58_GLU)的rRNA,以及通过体外转录(IVT)产生的不含修饰的rRNA。迭代训练的碱基识别器不仅提高了修饰rRNA的分析性能,甚至对未修饰的IVT rRNA也能优化基识别效果,这表明标准Guppy在某些RNA物种分析中可能并非最优选择。
对42种酵母tRNA物种的分析进一步证实了迭代方法的普适性。这些tRNA具有从密集修饰到全典型核苷酸的独特修饰模式。迭代碱基识别在训练和测试数据集上都表现出显著且一致的改进,包括对全典型分子如tRNA Gln-CTG的优化识别。
基于迭代碱基识别的验证效果,研究人员将其应用于治疗性RNA的质量控制。重新分析VAX-seq研究的mRNA疫苗数据时,发现迭代方法显著改善了对典型和全取代(U-to-N1-methylpseudouridines)mRNA的碱基识别。分析表明,N1-甲基假尿苷修饰的mRNA疫苗具有高度纯度和完整性:超过80%的转录本是全长的(跨越整个编码序列),且没有脱靶(与质粒骨架重叠)现象。这一发现纠正了先前研究认为修饰会导致更多截短转录本的错误结论。
作为临床前应用案例,研究团队还检查了BioRNA中的修饰热点。BioRNA是从人类tRNA改造而来的分子载体,用于携带治疗性RNA干扰(RNAi)剂。研究表明修饰热点对于BioRNA折叠和代谢稳定性不可或缺。通过比较工程化BioRNA与化学合成的对应物(ChemoRNA)的测序信号,发现了位置19、71和98处的潜在修饰热点,这些位置分别对应D环、反密码子环和T环,在人类tRNA物种中保守存在。还发现了一个位于接纳茎的位置8热点,推测为大肠杆菌特异性的4-硫尿苷(s4U)修饰。
本研究开发的方法适用于牛津纳米孔技术公司发布的各种碱基识别框架,包括针对早期R9.4.1流池化学开发的Guppy,以及兼容最新RNA流池化学的Bonito和Dorado。该方法成功将治疗性RNA质量控制从传统的序列水平提升至修饰状态水平,为RNA药物的研发和质量监控提供了强有力的技术支撑。
关键技术方法包括:使用Guppy-Taiyaki工作流处理R9.4.1流池数据,Bonito工作流处理R10.4.1和RNA流池数据;通过迭代训练生物分子特异性碱基识别模型;采用纳米tRNA测序(nano-tRNAseq)方案保留天然RNA修饰;使用Remora进行每核苷酸信号均值分析;利用人源tRNA改造的BioRNA和大肠杆菌表达系统生产治疗性RNA载体。
迭代碱基识别精确解码核苷酸序列骨架
研究人员使用RNA控制寡核苷酸对迭代碱基识别进行基准测试。在这些寡核苷酸中,所有对应典型核苷酸都被N1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)或5-甲基胞嘧啶(m5C)取代。使用Guppy进行初始碱基识别和比对时,发现映射率和比对准确率都受到损害。经过迭代优化后,前两次迭代就实现了显著改进。IGV可视化证实迭代碱基识别清除了错误并提高了映射率。
rRNA和tRNA序列分析
将迭代碱基识别应用于真实生物场景中的RNA分析。作为概念验证,首先分析了先前发表的18S和25S酵母rRNA纳米孔测序数据。该数据集调查了(1)从具有不同修饰模式的突变株(CBF5_GLU和NOP58_GLU)纯化的rRNA;(2)使用不含修饰的体外转录(IVT)产生的rRNA。迭代训练并基准测试了酵母rRNA的碱基识别器,然后应用于独立测试数据集。迭代碱基识别显著消除了碱基识别错误,提高了比对准确率。
mRNA疫苗纯度和完整性分析
基于迭代碱基识别的验证效果,研究人员重新分析了VAX-seq研究的数据和结论。疫苗mRNA通常通过质粒体外转录系统生产。VAX-seq使用测序和生物信息学方法来量化mRNA疫苗产品的纯度和完整性。研究发现,经过迭代碱基识别后,在典型和全取代(U-to-N1-methylpseudouridines)样本中,超过80%的转录本是全长的(跨越整个编码序列),且没有脱靶(与质粒骨架重叠)现象。
BioRNA修饰热点检查
迭代碱基识别精确解析的序列骨架增强了核苷酸修饰的严格确定。作为真实世界临床前应用案例,研究人员检查了BioRNA中的修饰热点。BioRNA从人类tRNA改造而来,是治疗性RNA干扰(RNAi)剂的分子载体。通过比较工程化BioRNA与化学合成的对应物(ChemoRNA)的测序信号,发现了位置19、71和98处的潜在修饰热点,这些位置分别对应D环、反密码子环和T环,在人类tRNA物种中保守存在。
研究讨论与结论表明,精确解析序列骨架是几乎所有下游生物信息学分析的前提。本研究报告的参考引导迭代生物信息学工作流程基于对地面真实参考序列的先验知识来优化碱基识别。该方法特别适用于训练生物分子特异性的高精度碱基识别器,在控制寡核苷酸以及天然rRNA和tRNA的碱基识别中均表现出卓越性能。
迭代方法的成功取决于初始碱基识别的性能,因此"不可基识别"的纳米孔测序信号(如那些被修饰显著偏离的信号)可能无法得到适当处理,这是该方法的一个主要限制。此外,由于序列骨架将基于参考序列进行优化,提供的参考与实际生物分子之间的序列差异可能引入系统性基识别错误。
虽然本文主要关注修饰干扰的碱基识别优化,但迭代方法也能促进典型序列的解释。例如,未修饰RNA(如体外转录产生的rRNA和化学合成的ChemoRNA)的碱基识别准确性通过迭代方法得到了大幅提高。因此,研究人员强调迭代碱基识别作为优化序列骨架的通用方法。
该研究成功将治疗性RNA质量控制从传统的序列水平提升至修饰状态水平,为RNA药物的研发和质量监控提供了强有力的技术支撑,对推动核酸药物领域的发展具有重要意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号