纳米孔原始信号数据集:推动细菌基因分型与甲基化分析的新资源

《Scientific Data》:A whole-genome sequencing dataset of nanopore raw signals for bacterial genotyping and methylation analysis

【字体: 时间:2025年12月03日 来源:Scientific Data 6.9

编辑推荐:

  本研究为解决细菌基因组监测中纳米孔测序原始信号数据共享不足的问题,提供了一个包含79株细菌、总计约1.4 TB的纳米孔原始电信号(squiggle data)数据集。研究人员利用最新R10.4.1测序芯片和V14化学试剂,通过多中心实验验证了数据在基因分型(如cgMLST/SNP分析)和甲基化检测方面的可重复性与应用价值。该数据集支持利用最新算法(如Dorado basecaller)进行重新碱基识别,有效减少甲基化引起的错误,显著提升了基因组组装的准确性。其共享为生物信息学工具开发、表观遗传学研究及病原体基因组监测提供了宝贵资源,推动了纳米孔数据共享的最佳实践。

  
在当今的公共卫生领域,对病原体进行基因组监测如同为无形的敌人绘制精准的“通缉令”,对于追踪疫情暴发、监控抗菌素耐药性以及指导公共卫生干预措施至关重要。传统的基因测序技术虽然精准,但往往耗时较长、成本高昂,且设备庞大。近年来,牛津纳米孔技术(Oxford Nanopore Technology, ONT)的出现带来了革命性的变化,它以其便携性、快速和相对较低的入门成本,使得研究人员能够快速获得高质量的全基因组序列,在病原体基因组监测中发挥了重要作用。然而,在这场基因测序的革命中,一个巨大的宝藏却被长期忽视——那就是测序过程中产生的原始电信号数据,即所谓的“squiggle data”。
通常,研究人员在发表研究成果时,共享的是经过碱基识别(basecalling)后生成的FASTQ文件(包含DNA序列及其质量分数),而原始的、未经处理的电信号数据(通常以FAST5或POD5格式存储)却很少被公开。这就像只分享了烹饪好的菜肴照片,却隐藏了原始的食材和烹饪过程记录。这些原始信号数据蕴含着远超核苷酸序列的丰富信息,包括DNA甲基化(DNA methylation)等多种核苷酸修饰的痕迹,这些修饰在细菌的毒力、耐药性和环境适应性中扮演着关键角色。更重要的是,纳米孔技术的碱基识别算法更新迭代迅速,只有拥有原始信号数据,才能利用最新的、更精准的算法重新分析数据,从而不断提升结果的准确性。特别是,某些细菌菌株特有的甲基化模式会导致碱基识别错误,进而可能严重影响基于单核苷酸多态性(SNP)的基因分型准确性,甚至导致疫情暴发源的误判。尽管已有研究表明,新的碱基识别模型(如Dorado v5)结合针对细菌甲基化定制的Medaka模型能显著提高准确性,但如果没有原始信号数据的支持,这一切后续分析都将成为无源之水。
正是为了解决这一关键问题,由Johanna Dabernig-Heinz和Valentina Galeone作为共同第一作者,Martin Holzer和Gabriel E. Wagner作为共同通讯作者领导的研究团队,在《Scientific Data》上发表了题为“A whole-genome sequencing dataset of nanopore raw signals for bacterial genotyping and methylation analysis”的数据描述文章。他们提供了一个大规模、高质量的多中心纳米孔原始信号数据集,旨在推动细菌基因分型、甲基化分析以及生物信息学工具的持续发展。
为了构建这一宝贵资源,研究人员开展了一项严谨的多中心研究。他们从奥地利和德国收集了2019年至2022年间分离自人体的79株公共卫生相关细菌菌株,涵盖了六种重要病原体:粪肠球菌(Enterococcus faecalis, E. faecalis)、屎肠球菌(Enterococcus faecium, E. faecium)、肺炎克雷伯菌(Klebsiella pneumoniae, K. pneumoniae)、单核细胞增生李斯特菌(Listeria monocytogenes, L. monocytogenes)、金黄色葡萄球菌(Staphylococcus aureus, S. aureus)以及施氏葡萄球菌(Staphylococcus simulans, S. simulans)。为了评估实验的可重复性,他们特别选择了其中12个菌株,以盲法编码的方式分发给三个不同的实验室(LAB1, LAB2, LAB3)进行独立的培养、DNA提取和测序。DNA提取后使用Qubit设备进行精确定量。所有实验室均使用ONT Native Barcoding Kit 24 V14试剂盒进行文库制备,并在最新的R10.4.1测序芯片上,以默认的400 bp/s(5 kHz)传输速度进行测序,确保了数据生成条件的一致性。此外,研究还对部分临床相关菌株(E. faecium, K. pneumoniae, S. aureus)进行了表型抗菌药物敏感性试验(使用VITEK? 2 XL系统),获得了详细的耐药谱数据,为基因型与表型的关联分析提供了可能。由于当前NCBI序列读段档案(SRA)尚不支持POD5格式,研究者将原始POD5信号数据转换为FAST5格式后上传至生物项目PRJNA109145下,并提供了将其转换回POD5格式的详细指南,以便利用最新工具进行分析。
数据记录
本研究描述的数据核心是102个纳米孔原始信号数据文件(对应79个菌株,部分有重复实验),总计约1.4 TB。每个文件都包含了最原始的离子电流信号,为重新碱基识别和深入分析提供了最大限度的灵活性。数据记录部分详细列出了每个文件的唯一标识符(库ID)、对应的菌种、文件大小以及SRA登录号,方便研究者精准定位和下载所需数据。这些数据与之前研究中生成的Illumina短读长数据并存于同一生物项目中,便于进行对比验证。表型耐药性数据则作为补充材料在Zenodo平台上共享。
技术验证
研究人员通过多层面对数据进行严格验证,确保了其可靠性和可重复性。首先,他们利用了多实验室重复实验的设计优势,来自不同实验室的同一菌株的测序数据在物种鉴定和基因分型分析中表现出高度一致性,证明了实验流程的稳健性。其次,对碱基识别后的读段进行基本质量评估显示,数据质量优良,平均测序深度高达206倍,平均读长N50在5-11千碱基之间,为高质量基因组组装奠定了基础。最关键的技术验证在于,研究者利用本研究共享的原始信号数据,使用最新的生物信息学流程(Dorado basecaller SUP v5模型进行碱基识别,Flye进行组装,Medaka v2进行抛光)进行了重新分析,并与作为金标准的Illumina短读长数据生成的参考基因组进行核心基因组多位点序列分型(cgMLST)比较。结果令人振奋:与早期使用旧版软件分析同一批原始数据相比,重新分析后的长读长组装与短读长参考基因组之间的cgMLST不匹配位点数显著减少,从最多66个不匹配降至最多仅4个不匹配(对于大多数菌株则为0-1个不匹配)。这清晰地表明,共享原始信号数据使得利用算法进步来大幅提升数据分析精度成为可能,有力地验证了本数据集的价值。
重现性甲基化和模体检测
除了基因分型,该数据集另一个核心应用是表观遗传学分析,特别是DNA甲基化检测。纳米孔测序的优势在于能够直接检测DNA链上的天然修饰。研究人员利用Modkit等工具对包含三重样的12个菌株的原始信号数据进行了甲基化分析,重点关注6mA(N6-甲基腺嘌呤)、5mC(5-甲基胞嘧啶)和4mC(4-甲基胞嘧啶)这三种常见的细菌DNA修饰。分析结果显示,不同实验室对同一菌株检测到的6mA甲基化水平高度一致,表明甲基化检测具有良好的可重复性。同时,研究还鉴定出多个高度甲基化(95-100%的位点被修饰)的特定DNA序列模体(motif)。值得注意的是,在单核细胞增生李斯特菌中,某些模体表现出部分甲基化的特性,且5mC/4mC的检测水平在不同重复间存在一定波动,这提示了可能存在生物学或技术因素影响甲基化的异质性,为后续深入研究提供了线索。此外,分析还确认了一个此前已被报道的、对碱基识别器具有挑战性的李斯特菌特异甲基化模体,这与该领域其他研究者的发现相互印证。
使用说明
为了方便全球研究者充分利用该数据集,文章贴心地提供了详细的使用指南。包括如何从SRA数据库下载FAST5格式的文件,以及如何使用ONT提供的pod5工具包将其转换回更现代的POD5格式。接着,推荐使用ONT最新的Dorado碱基识别器进行碱基识别,并给出了同时进行甲基化(6mA, 5mC, 4mC)检测的命令行示例。对于下游的甲基化分析,研究者可以参考作者团队在GitHub上共享的专用分析流程。这些详尽的说明极大地降低了数据使用的技术门槛。
综上所述,这项研究不仅提供了一个大规模、高质量、具有多中心重复验证的纳米孔原始信号数据集,更通过严谨的技术验证展示了其在提升细菌基因分型准确性和推动甲基化分析方面的巨大潜力。该数据集的共享,打破了以往仅共享碱基识别后数据的局限,为生物信息学研究者开发更优算法、为流行病学家进行更精准的病原体溯源、为微生物学家探索细菌表观遗传调控机制,提供了不可或缺的基础资源。它有力地倡导了在纳米孔测序领域共享原始信号数据应成为最佳实践,从而最大化数据的长期价值和科学影响力,促进基因组学研究的可重复性、透明性和持续创新。随着分析工具的不断进步,这个“数据宝藏”必将催生出更多有价值的科学发现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号