BED - Craft:一键生成.bed 文件,开启纳米孔自适应采样高效新篇

【字体: 时间:2025年02月22日 来源:BMC Research Notes 2.8

编辑推荐:

  为解决纳米孔自适应采样中定义靶向区域及创建.bed 文件繁琐的问题,庆应义塾大学研究人员开发 BED-Craft 工具。该工具能快速从基因名生成.bed 文件,极大便利了相关研究,推荐一读!

  
在基因测序的奇妙世界里,长读长测序技术(Long-read sequencing)可谓是大放异彩。它就像一个拥有超能力的探险家,能够深入到基因组中那些复杂的区域,比如重复区域,还能精准地检测出基因组结构变异,这可是短读长测序(Short-read sequencing)难以企及的本领。凭借着这些优势,长读长测序为人类基因组的完整测序立下了汗马功劳,像端粒到端粒(T2T)联盟完成的人类基因组完整测序,它就功不可没。

在长读长测序技术的大家庭里,牛津纳米孔技术公司(Oxford Nanopore Technologies)的纳米孔测序(Nanopore sequencing)和太平洋生物科学公司(Pacific Biosciences)的单分子实时测序(Single Molecule Real-Time, SMRT)是应用最为广泛的两种技术。它们不仅能进行常规的核苷酸测序,还拥有一项特殊技能 —— 检测甲基化碱基修饰,这在疾病研究领域可是潜力无限,比如用于基因组印记障碍的甲基化分析,以及基因组结构异常的检测。

在对特定感兴趣区域(Regions of Interest, ROI)进行富集测序时,传统的方法是使用化学合成的捕获探针,这些探针就像带着导航的小卫士,能精准地找到与自己互补的 ROI 序列,然后将目标 DNA 分离出来,再用下一代测序技术(Next-generation sequencing, NGS)进行测序。像 Illumina 公司的 DNA Prep with Exome 2.5 Enrichment、Twist Bioscience 公司的 Exome 2.0,还有安捷伦(Agilent)的 SureSelect Human All Exon probes,都是这类捕获探针的典型代表。

不过,纳米孔测序带来了一种全新的选择 —— 自适应采样(Adaptive sampling)。它就像一个智能小管家,不需要借助捕获技术,就能通过电子方式富集 ROI。具体怎么做呢?当 DNA 穿过纳米孔蛋白时,它会实时进行测序,并将序列与参考基因组进行比对。如果发现 DNA 包含 ROI,就会继续测序;要是没有,就会被反向电压 “赶出去”,这样就能实现对 ROI 的富集啦。这种方法的优势很明显,它摆脱了实验捕获和检索 ROI DNA 的繁琐步骤,只需要对 ROI 进行电子定义,就能灵活地适应不同的 ROI。

但是,要想顺利开展自适应采样,得有两个重要的 “小伙伴” 帮忙,那就是参考基因组和.bed 文件。.bed 文件是定义包含 ROI 的测序目标区域的文件,它遵循浏览器可扩展数据(Browser Extensible Data, BED)格式,至少得包含目标区域的染色体编号、起始位置和结束位置这些关键信息。虽然基因在 ROI 内的位置信息能从美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)、加州大学圣克鲁兹分校基因组浏览器(UCSC Genome Browser)等数据库获取,可要是手动去检索大量基因的信息,那可真是个耗时又费力的苦差事。比如说,在 UCSC Genome Browser 上手动查找基因区域并创建 BED 格式文本文件,每个基因大概就得花费 15 秒,要是每次目标基因集一变,都得手动处理几百个基因,这工作量简直让人望而生畏。

为了解决这个让人头疼的问题,来自日本庆应义塾大学(Keio University)的研究人员在《BMC Research Notes》期刊上发表了一篇名为《BED-Craft: a tool for easy generation of BED files for nanopore adaptive sampling from gene names》的论文。他们开发出了一款神奇的工具 ——BED-Craft,有了它,研究人员就能轻松地从基因名称直接生成.bed 文件,大大简化了之前繁琐的流程。

研究人员在这项研究中主要用到了以下几个关键技术方法:首先,用 Perl 编程语言开发了 BED-Craft 工具;其次,整合了多个数据库的基因注释信息,用于确定不同物种基因在基因组中的位置;此外,还设置了可调整的 “缓冲区”(Buffer)来优化测序效果。

下面咱们来看看这项研究都有哪些令人惊喜的成果吧。

1. 使用方法和目标基因大小


BED-Craft 工具使用起来超级方便,只要在命令行输入简单的指令,就能根据包含基因符号的输入文件生成 BED 格式文件。而且它还很贴心地提供了多种个性化设置选项,比如可以指定基因组构建版本(像人类的 hg19、hg38、T2T-CHM13,小鼠的 mm10、mm39 等)、缓冲区大小(从 0 到无限大,任你选择),甚至还能决定输出的.bed 文件中染色体编号是否包含 “chr” 前缀。对于不太熟悉命令行操作的研究人员,还有图形用户界面(Graphical User Interface, GUI)版本可供使用,操作界面一目了然,简单易懂。

这个工具对输入基因的数量没有限制,不过牛津纳米孔技术公司建议,包括缓冲区在内的目标区域总大小最好不要超过整个基因组长度的 5%。研究人员在实际操作中发现,当目标区域占基因组的 1% 时,富集效率(也就是测序深度)比占 5% 时要高很多。但当目标大小在大约 1% 到单个基因(约占基因组的 0.004%)这个范围内变化时,富集效率并没有明显差异。而且,运行 BED-Craft 工具时,标准输出还会贴心地显示 ROI 和包括缓冲区在内的目标区域占整个基因组的比例。

2. 缓冲区大小


缓冲区是添加在 ROI 两侧的额外区域,默认大小是 ±50,000 碱基对。之所以这样设置,是因为 DNA 测序总是从 5'- 端开始读取,所以缓冲区只加在 ROI 的 5'- 侧,这样就能减少不必要的非目标测序,提高对 ROI 的富集效率。要是把缓冲区大小设为 0,目标区域就只包含基因的全长区域(从基因的 5' 非翻译区到 3' 非翻译区),不过这样一来,测序到 ROI 边缘区域的可能性就会降低。牛津纳米孔技术公司建议,把缓冲区大小设置为平均测序文库 DNA 长度的 N10 值,能优化富集效率。如果在文库制备前对 DNA 进行了片段化处理,比如使用 g-TUBE(Covaris)工具,那么小于 50 kb 的缓冲区可能就足够了。研究人员发现,DNA 预片段化通常能让最终的测序产量提高 1.5 倍以上,不过片段化也会让读长变短,对单倍型定相的长度产生负面影响。所以综合考虑,一般还是推荐默认的 50 kb 缓冲区大小,但如果是测序片段化的 DNA,25 kb 的缓冲区可能更合适。

3. 性能特征


研究人员对 BED-Craft 工具的性能进行了严格测试,他们在人类基因组(hg38)上用包含 100 个基因和 20,000 个基因的两种输入文件进行测试,结果发现两种情况下工具的表现没有明显差异。对于 20,000 个基因的输入文件,从程序启动到生成输出文件,只花了 0.12 秒,内存使用量也只有 0.019 MB。虽然根据目标基因组或参考版本的不同,可能会有一些小的变化,但在预期的使用范围内,估计执行时间都不会超过 1 秒,内存使用量也会保持在 1 MB 以下,这性能简直太强大了!

4. 对其他物种的支持


除了人类和小鼠,BED-Craft 工具还能为超过 200 种其他物种服务。对于这些物种,研究人员提供了一个程序,利用 Ensembl GTF 文件就能生成所需的.bed 文件。不过目前 GUI 版本还不支持其他物种,只有命令行版本可以,相信未来随着技术的发展,GUI 版本也会更加完善。

5. 使用生成的.bed 文件验证自适应采样功能


怎么知道用 BED-Craft 工具生成的.bed 文件进行自适应采样有没有成功呢?可以通过纳米孔 MinKNOW 软件中的 “Read length histogram”(读长直方图)来验证。一般来说,启用自适应采样后大约 5 分钟,采样就会开始。这时候,包含目标区域(ROI + 缓冲区)的 DNA 会继续测序,其他 DNA 则会被排出纳米孔。如果自适应采样工作正常,5 分钟后,MinKNOW 软件中的读长直方图就会显示短读长(约 700 bp 或更短)的数量急剧增加,这些短读长对应的就是不包含目标区域、经过少量测序后被拒绝的 DNA。而没有应用自适应采样的常规测序,序列读长分布的频率在 1000 bp 左右不会突然下降,直方图会有一个朝着长读长的长尾巴,峰值出现在几千碱基对以上。研究人员还贴心地说,大家可以用 BED-Craft 工具中包含的演示文件进行测试运行,来检查自适应采样是否正常工作。

在研究的结论和讨论部分,BED-Craft 工具的优势十分显著。它操作简单,为那些进行纳米孔自适应采样的研究人员和诊断实验室带来了极大的便利。尤其是在面对各种各样的疾病研究或者不同的基因集时,研究人员可以轻松地根据每个样本的特点定制目标基因,灵活高效地开展自适应采样。

不过,这款工具也有一些小小的 “遗憾”。比如,基因注释信息会因为数据库的不同而有所差异,和这个工具兼容的注释信息有限,有时候用户可能还得自己创建包含基因位置信息的 BED 格式文件。虽然程序对输入基因的数量没有上限,但考虑到实际情况,目标大小占基因组的 1% 左右比较合理,可工具目前不会对目标大小是否合适发出警告,这是因为目标大小是否合适得根据用户的具体需求来判断,很难确定一个绝对的最佳值,而且纳米孔技术的不断进步也可能会改变富集效率,影响自适应采样的最佳目标大小。另外,这个工具在提取公共数据库中注册的基因区域时,不会考虑目标位置包含的基因组序列,在一些复杂的基因组区域,比如重复区域或者假基因区域,以及参考基因组信息不完整的区域,自适应采样不一定每次都能成功。而且它是专门为纳米孔测序设计的,虽然研究人员会根据纳米孔 MinKNOW 版本的变化进行后续更新,但也没办法保证它永远都能正常运行。

尽管存在这些不足,但 BED-Craft 工具的出现,无疑为纳米孔自适应采样领域注入了新的活力。它就像一把神奇的钥匙,打开了更高效、更灵活进行基因测序研究的大门,让研究人员在探索基因组奥秘的道路上又向前迈进了一大步,为未来的疾病研究和诊断带来了更多的可能性,相信随着技术的不断完善和发展,它会在生命科学领域发挥越来越重要的作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号