
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习与短序列k-mer分析的病毒宿主预测:分类学特征、宿主依赖性及样本偏差的影响研究
【字体: 大 中 小 】 时间:2025年08月28日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对病毒宏基因组研究中宿主预测的难题,开发了基于机器学习(ML)和短序列k-mer频率分析的创新方法。研究人员采用随机森林(RF)、梯度提升机(LGBM/XGB)和支持向量机(SVC)四种算法,系统评估了核苷酸(NT)和氨基酸(AA)k-mer特征在预测哺乳类、昆虫和植物RNA病毒宿主中的效能。研究发现4-mer频率结合SVC算法在预测新病毒属宿主时表现最优(加权F1-score=0.79),显著优于传统同源比对方法(tBLASTx)和Host Taxon Predictor工具。该技术为快速识别潜在生物威胁提供了新策略,特别适用于临床和环境样本中未知病毒的宿主溯源。
病毒研究领域正面临一个关键挑战:随着宏基因组测序技术的普及,科学家们在动物宿主、环境样本中发现了大量新型病毒,但这些病毒的宿主信息往往难以确定。传统方法主要依赖基因组同源性比对,当遇到进化距离较远的病毒时就会失效。更复杂的是,像粪便等样本中可能同时存在宿主自身病毒、食物源病毒和环境污染物,使得宿主溯源变得尤为困难。在此背景下,俄罗斯Sechenov大学和莫斯科国立大学的研究团队在《Scientific Reports》发表了一项突破性研究,探索如何利用机器学习从病毒基因组序列中挖掘宿主特异性特征。
研究采用三大关键技术:1)从Virus-Host DB数据库获取1363个RNA病毒全基因组构建数据集,涵盖42个病毒科的哺乳类、昆虫和植物宿主;2)设计三种训练集划分策略(包含已知病毒科/属、排除已知病毒科/属)以模拟实际应用场景;3)系统比较NT/AA的1-7-mer特征组合与四种ML算法(RF/LGBM/XGB/SVC)的性能,以加权F1-score为主要评价指标。
【预测已知与新型病毒宿主的效能差异】
通过"非重叠属"测试集验证发现,SVC算法结合4-mer特征表现最佳(中位加权F1-score=0.79),较传统tBLASTx方法提高16%。值得注意的是,单核苷酸频率在预测全新病毒科时反而更稳健,暗示基因组GC含量等基础特征可能蕴含宿主适应信号。研究还揭示ssRNA(+)病毒的宿主预测准确率普遍高于ssRNA(-)病毒,可能与后者核衣壳对基因组的保护作用有关。

【特征重要性分析】
研究意外发现,已知的宿主防御相关序列特征(如ZAP靶向的CpG、RNAse L靶向的UpA)在特征重要性排名中并非最显著。XGBoost模型分析显示,某些未明确机制的4-mer模式(如TTTG、AAAT)具有更高判别力,这为后续宿主-病毒互作机制研究提供了新方向。
【短片段分析的优化策略】
针对宏基因组数据多为短读长的特点,研究创新性地发现:当训练集与测试集采用相同长度片段(400/800nt)时,预测性能可提升0.04-0.07。其中二核苷酸特征在短片段分析中表现突出,而较长k-mer(>5)则因稀疏性问题导致性能下降。

【分类学偏差的影响】
研究特别强调了数据集构成对结果的影响:在包含相同病毒科的训练集中,预测性能可达F1-score 0.92-0.96,主要反映的是分类学信号而非宿主适应特征。而Bromoviridae和Rhabdoviridae等科的病毒表现出异常预测误差,提示某些病毒家族可能采用独特的宿主适应策略。
这项研究不仅建立了目前最精确的RNA病毒宿主预测框架,更揭示了基因组组成特征与宿主适应的复杂关系。其方法论创新体现在三个方面:1)首次系统评估了训练集分类学组成对宿主信号提取的影响;2)明确了短片段分析的最佳实践方案;3)发现非经典序列特征可能携带更强宿主信号。这些成果为疫情预警系统提供了新的技术路径,特别是对野生动物源新发传染病的早期识别具有重要意义。未来研究可进一步探索发现的特征序列与宿主免疫系统的分子互作机制,以及将该框架扩展到DNA病毒和更广泛的宿主范围。
生物通微信公众号
知名企业招聘