LGLoc:基于语言模型与图神经网络的mRNA亚细胞定位预测新方法及其在疾病诊疗中的应用

【字体: 时间:2025年05月29日 来源:Scientific Reports 3.8

编辑推荐:

  为解决mRNA亚细胞定位预测中实验方法耗时昂贵、计算模型精度不足的问题,Saeedeh Akbari Rokn Abadi团队开发了LGLoc模型。该研究整合图神经网络(GNN)、SpliceBERT语言模型及k-mer/CKSNAP编码,通过ANOVA特征选择和Naive Bayes分类器,显著提升预测性能(F1-score提高49%,MCC提升26%),为癌症、阿尔茨海默病等疾病的机制研究和药物开发提供新工具。

  

mRNA在细胞内的精确定位是蛋白质合成和细胞功能调控的关键环节,其异常与癌症、阿尔茨海默病等疾病密切相关。然而,传统实验方法如RNA荧光原位杂交(RNA-FISH)成本高昂,而现有计算工具如mRNALoc和MSLP在准确性和泛化能力上存在局限。针对这一挑战,瑞典皇家理工学院与伊朗谢里夫理工大学的研究团队在《Scientific Reports》发表研究,提出LGLoc模型——一种融合多模态特征的创新预测框架。

研究采用三大关键技术:1) 基于RNAfold预测的二级结构,通过图神经网络(GNN)编码空间拓扑特征;2) 利用预训练语言模型SpliceBERT捕捉序列上下文信息;3) 结合k-mer频率和CKSNAP算法提取序列模式特征。特征选择采用ANOVA方差分析,最终通过一对多(one-vs-rest)朴素贝叶斯分类器实现五类定位预测(细胞质、内质网等)。

方法学创新
研究团队首先通过维也纳RNA包(ViennaRNA Package)预测RNA二级结构,将其转化为节点含10维特征(核苷酸类型+六类亚结构)的图数据,采用GenConv层实现消息传递。序列编码方面,SpliceBERT模型处理1024长度序列,不足部分填充处理,并引入Focal Loss解决数据不平衡问题。k-mer(2-6)和CKSNAP(kmax=5)特征经相关性筛选后,与GNN/BERT特征拼接形成最终输入。

性能突破
在RNALocate v2.0数据集上的测试显示,LGLoc在六项核心指标上全面超越基线模型:

  • 准确性:平均77.36%(较MSLP提升2.58%),核定位预测表现最佳
  • 敏感性:达81%,尤其在细胞线粒体定位中接近完美识别
  • F1-score:67.62的平均分较mRNALoc提升49%,标准差降低显示稳定性
  • AUC:84.96的曲线下面积证实模型强区分能力

讨论与展望
该研究的核心价值在于首次将语言模型的序列理解能力与GNN的结构表征优势相结合,突破传统编码方法(如PseKNC)的信息瓶颈。值得注意的是,模型在内质网定位预测上仍有改进空间,作者建议未来通过扩充跨物种数据和引入可解释性分析进一步提升性能。开源代码已发布在GitHub平台,为疾病相关mRNA靶点发现及寡核苷酸疗法开发提供重要工具支撑。

这项研究标志着计算生物学领域向多模态智能预测迈出关键一步,其方法论框架可扩展至lncRNA等其他RNA分子的功能研究,为理解基因表达的时空调控机制开辟新途径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号