基于预训练RNA语言模型的2'-O-甲基化位点预测工具2OMe-LM的开发与应用

【字体: 时间:2025年07月30日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对RNA 2'-O-甲基化(2OMe)位点实验检测成本高、耗时长的问题,开发了首个整合预训练RNA语言模型SpliceBERT的深度学习框架2OMe-LM。该模型通过融合多维度序列特征,在独立测试集上达到AUC 0.952的优异性能,显著优于现有工具,并成功识别出AGAUC等特征性motif,为研究2OMe在基因调控和疾病中的作用提供了新工具。

  

在RNA表观遗传学领域,2'-O-甲基化(2OMe)作为一种关键修饰,通过核糖2'羟基的甲基化参与基因表达调控、免疫识别等关键生物学过程。这种修饰的异常与地中海贫血、先天性肌营养不良等疾病密切相关。然而传统检测方法如液相色谱-质谱联用(LC/MS)和二代测序技术(Nm-seq/RiboMeth-seq)存在通量低、成本高的瓶颈,而现有计算预测工具多依赖传统序列编码方法,难以捕捉RNA修饰的复杂特征模式。

针对这一挑战,中南大学计算机科学与工程学院的研究团队开发了创新性深度学习框架2OMe-LM。该研究整合来自RMBase v3.0等数据库的16,074条人类RNA样本,通过多组学数据融合构建高质量基准数据集。研究团队创新性地将预训练RNA语言模型SpliceBERT与word2vec技术相结合,前者通过72个脊椎动物物种的百万级RNA序列训练获得多维生物学特征,后者则采用4-mer策略捕捉局部序列模式。特征融合后引入多头自注意力机制解析关键位点,最终模型在独立测试集上实现AUC 0.952、精确度0.993的突破性性能,较现有最佳工具提升8.4%。

关键技术路线包含四个核心环节:(1)数据整合与清洗:从6种高通量技术(GSE90164等)收集15,637条原始记录,经CD-HIT-EST去冗余后构建平衡数据集;(2)双重特征编码:采用SpliceBERT生成512维全局特征,配合128维word2vec局部特征;(3)混合神经网络架构:Bi-LSTM处理序列依赖性,注意力机制解析特征贡献度;(4)对抗性验证:通过FGM方法证实模型鲁棒性,性能波动小于3.21%。

研究结果部分揭示多项重要发现:

  1. 模型比较:在5折交叉验证中,2OMe-LM以ACC 0.846显著优于6种基线模型(最高仅0.813),证实语言模型特征的关键作用。
  2. 跨细胞系分析:HEK293/HeLa/PA1细胞系间的迁移实验显示,同源训练-测试组合性能最优(AUC 0.905-0.935),揭示细胞环境特异性。
  3. 核苷酸特异性:模型对Cm修饰预测准确率达88.1%,各类型间性能波动<3%,克服了数据分布不平衡问题。
  4. 生物学解释:注意力权重可视化成功捕获已知motif模式,如PXDN mRNA中的AGAUC-AG富集区,与实验报道完全一致。

讨论部分强调,该研究首次将预训练语言模型引入RNA修饰预测领域,突破传统方法在特征表征方面的局限。通过UMAP降维可视化证实,SpliceBERT生成的特征空间能清晰区分修饰/非修饰样本,这为理解2OMe的序列决定因素提供了新视角。值得注意的是,模型在保持高精度的同时召回率达80.2%,平衡性优于现有工具。尽管在跨物种预测方面仍存挑战,但研究提出的多模态融合框架为后续整合结构特征等提供了扩展空间。

该成果发表于《Bioinformatics》杂志,配套开发的在线服务器(https://csuligroup.com:9200/2OMe-LM)支持41nt序列的快速分析,为相关研究提供了实用工具。这项工作不仅推进了RNA修饰计算预测方法学的发展,也为解析2OMe在疾病发生中的作用机制提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号