
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于生成与预测神经网络的RNA功能分子设计新范式:SANDSTORM与GARDN系统的开发与应用
【字体: 大 中 小 】 时间:2025年05月05日 来源:Nature Communications 14.7
编辑推荐:
研究人员针对RNA分子序列-结构-功能关系复杂、实验筛选成本高的问题,开发了整合RNA序列与结构的深度学习框架SANDSTORM(预测模型)和生成对抗网络GARDN(设计模型)。该系统仅需384个训练样本即可生成性能超越训练集的RNA分子,在5'UTR、RBS、CRISPR gRNA等设计中验证了其通用性,为RNA治疗、诊断及合成生物学提供了高效计算工具。
RNA分子作为遗传信息载体和功能执行者,在基因治疗、分子诊断和合成生物学中展现出巨大潜力。然而,其复杂的序列-结构-功能关系使得传统设计方法严重依赖大量实验筛选,而现有计算工具难以兼顾结构预测与功能优化的双重需求。尤其对于需要特定二级结构的合成RNA元件(如toehold开关),经典热力学算法无法准确预测功能表现,而纯序列驱动的深度学习模型又难以捕捉结构特征。这一瓶颈严重制约了RNA技术在精准医疗和生物工程中的应用效率。
针对这一挑战,波士顿大学的研究团队在《Nature Communications》发表了突破性研究。他们创新性地开发了双通道神经网络架构SANDSTORM(Sequence AND Structure-informed Optimization of RNA Molecules),首次实现RNA序列与结构的协同编码预测;并配套构建生成对抗网络GARDN(Generative Adversarial RNA Design Networks),形成从功能预测到逆向设计的完整计算体系。该系统仅需384个训练样本即可生成性能超越训练集的RNA分子,在toehold开关、核糖体结合位点(RBS)、CRISPR gRNA等多种功能RNA设计中展现出卓越的通用性。
研究采用多模态深度学习技术,核心创新在于:1)设计N×N维氢键编码矩阵表征RNA二级结构,与one-hot序列编码并行输入卷积神经网络;2)开发具有反向互补层的生成器,强制生成符合目标结构的序列;3)建立端到端优化流程,通过潜在空间梯度更新实现功能定向进化。实验验证采用流式细胞术(toehold开关)、体外转录荧光检测(aptaswitch)等高通量方法。
研究结果部分揭示:在结构感知能力测试中,SANDSTORM对模拟toehold开关数据集的结构依赖性分类AUC达0.97,显著优于纯序列模型(AUC=0.72)。集成梯度分析显示模型能准确识别关键碱基配对区域,与最小自由能预测结构高度一致。跨RNA类别的功能预测表明,该架构在5'UTR翻译效率(R2=0.81)、RBS活性(Spearman=0.85)、Cas13a靶向效率(MSE降低42%)等任务中均匹配或超越专用模型,参数量减少最高达95%。
生成设计方面,GARDN-SANDSTORM联合优化使RBS序列翻译活性提升28.2倍,3/5设计超越训练集最优序列。对于结构敏感的toehold开关,生成序列的结构吻合度达实验数据集水平,经300次预测调用即可使ON值提升37%。实验验证显示优化后开关的ON/OFF比达NUPACK设计序列的11.9倍,且保持天然核苷酸多样性。在数据稀缺的aptaswitch设计中,仅用384个样本训练的模型成功筛选出ON/OFF比62.46的高性能序列,较热力学设计工具提升10倍。
该研究突破了RNA计算设计的三大局限:通过结构编码卷积层实现了跨RNA类别的通用预测;利用对抗生成框架解决了序列-结构-功能的多目标优化难题;在低数据条件下仍保持可靠性能。这种"预测-生成"闭环系统为快速开发诊断性核酸开关、优化mRNA疫苗元件等应用提供了新范式。特别是针对突发传染病,研究展示的SARS-CoV-2 N基因靶向设计流程仅需34秒即可完成全基因组扫描,显著提升了应急响应能力。未来通过扩展可编程结构约束层,该技术有望进一步推动RNA合成生物学向标准化、自动化方向发展。
生物通微信公众号
知名企业招聘