
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于参考病毒数据库(RVDB)优化的高通量测序(HTS)病毒检测生物信息学分析技术革新
【字体: 大 中 小 】 时间:2025年06月24日 来源:mSphere 3.7
编辑推荐:
这篇研究报道了参考病毒数据库(RVDB)的全面升级,通过Python 3代码重构、语义管道更新、噬菌体分类学剔除及SARS-CoV-2基因组质控等创新策略,显著提升了高通量测序(HTS/NGS)在生物制品外源病毒检测中的分析效能。研究解决了公共数据库序列冗余和错误注释导致的假阳性问题,为替代传统体内/体外检测方法提供了更精准的计算生物学工具。
ABSTRACT
生物制品生产需确保无外源病毒(Adventitious Viruses, AVs)污染,传统体外/体内检测方法存在检测范围有限、耗时长等缺陷。高通量测序(HTS)技术能同时检测已知和新型病毒,但其分析效能高度依赖数据库质量。研究团队对参考病毒数据库(RVDB)进行系统性优化:将Python 2脚本升级至Python 3,通过语义管道剔除错误注释的非病毒序列,基于分类学ID精准移除噬菌体,并对SARS-CoV-2基因组实施≥1%模糊碱基(Ns)的质控标准。新版RVDB显著降低计算负担,提升病毒检测特异性,其网站新增序列检索工具和自动注释管道,为生物制品安全评估提供可靠支持。
INTRODUCTION
HTS技术在疫苗安全事件中展现出独特价值——曾发现轮状病毒疫苗中的猪圆环病毒1型(PCV1)和昆虫Sf9细胞系中的新型弹状病毒。然而公共数据库存在严重缺陷:NCBI RefSeq仅含完整基因组,而nr/nt库混杂大量宿主序列。早期研究检测Sf-弹状病毒时,因宿主序列干扰几乎遗漏关键结果。这促使国际病毒检测技术工作组(AVDTWG)创建低冗余、高多样性的RVDB,其特点包括:囊括所有病毒相关序列(含内源性逆转录病毒)、减少宿主序列污染、排除噬菌体以降低假阳性。
MATERIALS AND METHODS
数据资源
RVDB持续整合GenBank新序列,从v10.2至v29.0版本特性详见附表。自v18.0起纳入SARS-CoV-2序列,v19.0启动系统性优化。
管道重构
将16个Python 2脚本转换为Python 3,经v24.1和v26.0并行测试验证输出一致性。新代码已在GitHub开源。
序列过滤策略
非病毒序列注释
建立自动管道识别ribosomal RNA、线粒体等污染物,生成可下载的注释清单。
RESULTS
代码升级验证
Python 3脚本在v24.1和v26.0版本中与旧版输出完全一致,自v25.0投入生产。
噬菌体过滤效能
分类学筛选补足了关键词检索的漏洞,如Mycobacterium virus等命名特殊的噬菌体被精准识别。
SARS-CoV-2优化效果
非病毒注释突破
v27.0实现自动生成非病毒区域注释文件,涵盖质粒、叶绿体等12类污染物,通过BLAST确认后提供下载。
DISCUSSION
随着HTS成本下降,公共数据库序列呈指数增长,但错误注释(如将宿主基因标记为POL病毒)和污染物(如测序接头)严重干扰分析结果。RVDB通过三重革新解决该问题:
未来将扩展对内源性逆转录病毒宿主侧翼序列的注释,进一步降低假阳性。目前RVDB已服务全球5000用户,数据传输量达21.97TB,持续为疫苗安全和大流行病监测提供计算基础。
ACKNOWLEDGMENTS
感谢美国国家生物制药制造创新研究所(NIIMBL)和盖茨基金会(OPP1204996)的资助,以及特拉华大学生物信息学核心设施的技术支持。
生物通微信公众号
知名企业招聘