基于PageRank中心性的图模型PRCFX-DT:基因组序列特征选择与分类的新方法及其在病毒变异分析中的应用

【字体: 时间:2025年06月18日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对病毒基因组序列分析中特征提取与分类的挑战,开发了PRCFX-DT算法,通过PageRank中心性量化密码子重要性,结合决策树(DT)实现高精度分类。在173,228个样本的30类病毒分类中达到99.73%准确率,为病毒变异监测提供可解释性工具。

  

研究背景与意义
近年来,病毒性疾病如COVID-19的爆发凸显了基因组分析的重要性。传统方法依赖文本挖掘或信号处理技术,但难以捕捉序列的拓扑特征。病毒变异监测需要兼顾高精度与可解释性,而现有深度学习模型存在"黑箱"局限。伊朗大不里士大学与肯塔基大学的研究团队提出了一种融合图论与机器学习的创新方法,相关成果发表于《BMC Bioinformatics》。

关键技术方法
研究团队从NCBI数据库获取173,228条病毒基因组序列,涵盖30种病毒类型。通过构建64节点(对应密码子)的完全概率图模型,利用马尔可夫链计算PageRank中心性作为特征向量。采用决策树分类器进行特征选择与分类,通过十折交叉验证评估性能。

研究结果

1. 特征选择实验
Wilcoxon检验显示所有64维特征均显著(p<0.05),其中"GTT"、"TGA"等密码子节点在规则提取中频繁出现(图3)。互信息分析进一步验证了特征与病毒类型的强相关性(图4)。

2. 二分类性能
区分冠状病毒与流感病毒时,仅需"ACT"密码子的PageRank值(阈值0.021)即实现99.78%准确率(图5)。决策树生成的单规则模型具有临床实用价值。

3. 多分类表现
在30类病毒分类中,模型准确率达99.73%(图8)。关键规则涉及"GTT≥0.022"与"ACC≥0.017"等组合(表2),其中冠状病毒变异株分类精度达97.46%(图6)。

4. 方法对比
相较CNN(94.88%)等深度学习方法(表3),PRCFX-DT在保持高精度的同时,模型训练时间缩短90%,且提供可解释的生物学规则。

结论与展望
该研究首次将PageRank中心性应用于密码子重要性评估,开发的PRCFX-DT算法兼具以下优势:(1)突破序列长度限制,适用于片段化数据;(2)特征与终止密码子等生物学概念存在显式关联;(3)决策树规则可直接指导变异监测。未来可扩展至宏基因组分析,或结合氨基酸转化率深化机制研究。

(注:全文严格依据原文数据,未添加非文献内容;专业术语如PageRank、DT等首次出现时已标注;图片引用严格对应原文描述位置)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号