编辑推荐:
为解决下一代测序技术产生的大量核苷酸序列数据处理难题,研究人员开展了无比对(AF)方法用于病毒序列分类的研究。他们用 6 种 AF 技术提取特征向量训练随机森林分类器,结果显示在不同病毒数据集上分类准确率较高,该研究为病毒序列分类提供了高效可行的方案。
在生命科学和医学研究领域,随着下一代测序(Next Generation Sequencing,NGS)技术的飞速发展,核苷酸序列数据呈爆炸式增长。以往,传统的基于比对的序列分析方法,如 BLAST,在处理这些海量数据时遇到了巨大挑战。它需要消耗大量的计算资源,而且随着序列长度的增加,可能的比对数量会呈指数级增长,这使得分析效率大打折扣。为了应对这一困境,科研人员急需寻找更高效的序列分析方法。在这样的背景下,无比对(Alignment-Free,AF)方法应运而生,它被视为解决大规模序列数据处理难题的新希望。然而,AF 方法在病毒序列分类领域的应用还存在诸多问题,比如其在真实场景下对病毒序列的准确分类能力缺乏深入研究,之前的评估数据集往往不能代表实际情况,导致 AF 方法的广泛应用受到限制。
为了解决这些问题,来自南非斯泰伦博斯大学等多个研究机构的研究人员展开了一项极具意义的研究。他们针对 AF 方法在大规模病毒序列分类中的应用展开全面评估,旨在探索这些方法在实际应用中的可行性和有效性。该研究成果发表在《BMC Genomics》杂志上,为该领域的发展提供了重要的参考依据。
在这项研究中,研究人员运用了多种关键技术方法。首先,他们选取了 6 种已有的 AF 技术,包括基于词频的方法(k-mer 计数、间隔词频率 Spaced Word Frequencies,SWF )、基于混沌理论的频率混沌游戏表示(Frequency Chaos Game Representation,FCGR)、基于数字信号处理的基因组信号处理(Genomic Signal Processing,GSP)以及基于词匹配频率的 Mash 和返回时间分布(Return Time Distribution,RTD)。这些技术被用于从病毒基因组中提取特征向量。然后,研究人员使用随机森林分类器,以这些特征向量作为输入进行训练。他们构建了包含 SARS-CoV-2、登革热病毒和 HIV 的病毒序列数据集,其中 SARS-CoV-2 数据集规模最大,涵盖 297,186 条核苷酸序列,分属于 3502 个不同的谱系。
下面来看具体的研究结果:
- 分类性能:研究人员对不同病毒数据集进行分类测试,在登革热病毒数据集上,FCGR、SWF、k-mer、RTD 和 Mash 这几种方法都展现出近乎完美的分类性能,整体分类准确率和马修斯相关系数(Matthews Correlation Coefficient,MCC)均达到 99.8%,其中 FCGR、SWF 和 k-mer 的宏 F1 值(Macro F1 Score)最高,为 98.6%;在 HIV 数据集上,Mash 表现最佳,准确率达到 0.891,Macro F1 值为 0.793,MCC 为 0.886 ,而基于词的方法 FCGR、k-mer、RTD 和 SWF 也有较高表现,准确率和 MCC 均超 80%,Macro F1 值超 70%,但 GSP 表现较差,准确率仅 55.8%;在 SARS-CoV-2 数据集上,FCGR 效果最为显著,准确率、Macro F1 值和 MCC 分别达到 0.979、0.977 和 0.979 ,k-mer、RTD 和 SWF 也有较高准确率,而 GSP 表现很差,平均准确率仅 0.325。
- 类间分类准确性:研究人员分析了每个模型的类间分类准确性,发现基于词的模型表现最佳。这些模型在测试集中的绝大多数类上都能达到近乎完美的准确率,但在少数类上性能会急剧下降。例如在 SARS-CoV-2 的 3502 个类中,基于词的模型在绝大多数类上表现优异,仅约 200 个类出现性能大幅下降。相比之下,GSP 在分类时性能立即出现明显下降,Mash 则呈现出几乎线性的准确率下降趋势,且二者在分类过程中的性能偏差更大。
- 影响分类性能的因素:研究人员探究了影响模型分类性能的因素。他们发现重组体对模型分类有较大影响,所有模型对重组体的分类都更具挑战性,其中 Mash 和 GSP 受影响最大,基于词的模型影响较小。此外,训练样本数量、序列的进化深度和每个谱系的直接后代数量(子谱系)也会影响模型性能。对于基于词的模型,训练样本较少时分类准确率会明显下降;所有模型的分类准确率都会随着子谱系数量的增加而显著下降,但未发现谱系深度与模型性能之间存在显著关系。
- 分类通量:研究人员评估了各模型的运行时间和峰值内存使用情况,并与常用的 SARS-CoV-2 谱系分类工具 Pangolin 和 NextClade 进行比较。结果显示,不同模型的运行时间差异显著,FCGR 速度最快,平均运行时间为 233.92 秒,RTD 最慢,平均为 1806.25 秒。在内存使用方面,所有模型的峰值内存使用相似,RTD 消耗最少,为 9.44GB。与对比工具相比,FCGR 和 k-mer 模型在速度上优于 NextClade,NextClade 的峰值内存使用(20.33GB)明显高于所有随机森林模型。
研究结论和讨论部分指出,该研究全面评估了 AF 方法在大规模病毒序列分类中的有效性,包括分类性能和计算效率。研究发现,尽管数据集具有高维度性,但基于词的 AF 方法能够有效地表示 SARS-CoV-2 序列,在测试集中达到接近 98% 的分类准确率。研究人员还用中等规模的 HIV 和登革热病毒数据集验证了模型的稳健性。此外,AF 病毒序列分类比基于比对的技术快得多,而且仅需适度的计算资源就能训练模型和进行病毒序列分类,无需依赖云基础设施,这为全球研究人员提供了更易获取和更具扩展性的研究方法。
总的来说,这项研究为病毒序列分类提供了新的思路和方法,AF 方法在大规模病毒序列分类中展现出了巨大的潜力,有望在未来的病毒研究、疾病监测和防控等领域发挥重要作用,帮助科研人员更高效地分析病毒序列,应对不断变化的病毒威胁。