PathoRM:通过整合多视图特征来计算病原性RNA甲基化位点

《PLOS Computational Biology》:PathoRM: Computational inference of pathogenic RNA methylation sites by incorporating multi-view features

【字体: 时间:2025年11月12日 来源:PLOS Computational Biology 3.6

编辑推荐:

  针对传统方法在识别致病RNA甲基化位点中的局限性,本研究开发了PathoRM模型,整合多视图学习、图神经网络、对抗训练及负采样策略,有效提升预测准确性和生物学解释性。实验表明,PathoRM在多个数据集上AUC和AUPR指标显著优于基线模型,且通过注意力机制揭示了与疾病相关的保守基序,为基因组学研究提供新工具。

  RNA甲基化是表观遗传调控中的重要机制,通过在RNA核苷酸上添加甲基基团,能够深刻影响基因表达、细胞分化以及一系列维持细胞功能和应对环境变化的关键生物学过程。近年来,随着高通量测序技术的发展,例如miCLIP、m6A-CLIP-seq和DART-seq等方法,使得RNA甲基化位点能够以单核苷酸分辨率被识别。这些技术的进步推动了多个全面的RNA甲基化数据库的建立,如RMVar、m7GHub和RMDisease,它们为研究RNA甲基化与疾病之间的关联提供了丰富的数据资源。然而,传统的实验方法在识别致病性RNA甲基化位点方面存在局限性,因此开发高效的计算方法成为研究的迫切需求。

针对这一问题,研究人员提出了一种名为PathoRM的深度学习模型,旨在准确推断RNA甲基化位点与疾病之间的关联。PathoRM不仅融合了RNA甲基化宿主序列和致病性描述作为输入,还结合了大型语言模型、多视角学习算法、图神经网络、对抗训练策略以及基于“罪责关联”原则的负采样方法。这些技术的综合应用使得PathoRM能够在多个数据集和评估指标中展现出优异的预测性能。通过深度学习模型的特征提取和多视角学习的协同作用,PathoRM能够有效整合不同来源的特征,减少模型对特定特征的依赖,从而提高预测的准确性和鲁棒性。

此外,PathoRM引入了对抗训练策略,以增强模型对输入微小扰动的鲁棒性。对抗训练通过生成对抗性样本,即对输入进行人为修改以最大化模型预测误差,从而提升模型在训练过程中的泛化能力。该方法通过在图神经网络的每一层引入对抗性扰动,使得模型能够更有效地学习和适应不同的输入数据,从而减少过拟合现象并提高预测的稳定性。实验结果显示,PathoRM在对抗训练后表现出更小的训练损失和更稳定的预测结果,这表明对抗训练策略在提升模型性能方面发挥了重要作用。

为了进一步提升模型的预测效果,PathoRM还采用了一种基于“罪责关联”原则的负采样方法。该方法通过分析已知的致病性位点与非致病性位点之间的关联性,选择具有较低相似度的位点作为负样本。这种方法能够有效减少噪声干扰,提高模型对致病性位点的识别能力。与随机采样相比,基于“罪责关联”的负采样方法在平衡和不平衡数据集上均表现出更高的预测性能,尤其是在不平衡数据集上,其AUPR指标提升了约50%。这一结果表明,该负采样策略在提高模型泛化能力和减少过拟合方面具有显著优势。

PathoRM的性能在多个实验中得到了验证。在10折交叉验证(10-fold CV)和冷启动验证(LODOCV)两种场景下,PathoRM均表现出优于现有模型的预测能力。在10折CV实验中,PathoRM在平衡和不平衡数据集上分别取得了AUC为0.9878 ± 0.0195和0.9737 ± 0.0102,以及AUPR为0.9904 ± 0.0295和0.8815 ± 0.042的优异结果。而在LODOCV实验中,PathoRM的AUC值分布更为集中,且方差更小,这表明其在面对新的疾病数据时具有更强的适应性和稳定性。相比之下,其他模型如DeepDTA、DeepDCA和DeepConv-DTI在这些实验中表现较差,显示出PathoRM在处理复杂生物数据方面具备独特优势。

PathoRM的另一个显著特点是其在生物学解释方面的能力。通过整合RNA甲基化位点的宿主序列和疾病描述,PathoRM能够利用注意力机制揭示RNA甲基化位点与疾病之间的内在联系。这种机制使得模型不仅能够预测致病性位点,还能提供关于这些位点在疾病发生和进展中的生物学意义的解释。例如,在乳腺癌和阿尔茨海默病相关的RNA甲基化位点中,PathoRM通过注意力机制识别出了具有重要生物学功能的保守基序,如“CCCGCCU”和“AAGUGGG”。这些基序可能在RNA二级结构中发挥关键作用,参与基因调控或疾病相关过程,例如剪接机制。

尽管PathoRM在多个方面表现出色,但其仍存在一些局限性。首先,当前模型主要关注RNA甲基化位点的致病性预测,而忽略了这些位点引发的后转录调控过程。其次,RNA的二级结构可能对甲基化位点的病理作用产生重要影响,因此在未来的模型优化中,纳入RNA二级结构信息可能会进一步提升预测性能。此外,PathoRM目前主要针对m6A和m7G两种甲基化类型,但在其他类型的RNA甲基化(如m1A、m5C和ψ等)上也具有应用潜力。研究人员还设想将PathoRM拓展至其他类型的遗传修饰和生物相互作用的预测,如致病性DNA甲基化位点、miRNA-疾病关联以及致病性非编码RNA的识别。

总的来说,PathoRM作为一种生物信息驱动的深度学习模型,不仅在预测RNA甲基化位点与疾病之间的关联方面表现出色,还通过其多视角学习、图神经网络和对抗训练等机制,提供了丰富的生物学解释。这使得PathoRM不仅是一个高效的预测工具,同时也为RNA甲基化在疾病中的作用机制研究提供了新的视角。未来,随着对RNA甲基化机制的深入理解,PathoRM有望在更多生物研究领域中发挥作用,为基因组学和表观遗传学的发展做出重要贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号