-
生物通官微
陪你抓住生命科技
跳动的脉搏
HiFi 碱基修饰分析: 大的要来了!!!
【字体: 大 中 小 】 时间:2022年03月21日 来源:
编辑推荐:
近日,一款专用于分析HiFi 5mC碱基修饰的工具-Primrose在PacBio官方Github库中悄然上线。
近日,一款专用于分析HiFi 5mC碱基修饰的工具-Primrose在PacBio官方Github库中悄然上线。显然,这预示着许多用户翘首以盼的,基于HiFi序列的碱基修饰分析功能将于今年正式推出。
今天,小编将为您介绍软件的使用方法,并对分析结果进行展示。这个功能的更新会对碱基修饰研究领域带来哪些变化呢?在文章的最后,小编也来谈谈自己的看法。
一、分析流程
在使用上,该软件非常简单直接,只需要与CCS工具对应的参数相结合即可。
首先,在命令行环境下,在ccs命令(SMRT Link 10.x及以上版本)后添加参数--hifi-kinetics,使得结果的bam文件中每条序列都有对应的kinetics标签。相信了解PacBio碱基修饰分析的老用户都知道Subreads的kinetics标签。在PacBio Subreads的bam文件中,每条序列都记录着每个碱基的相邻碱基时滞(Inter Pulse Duration, IPD, ip tag)和峰宽(Pulse Width,pw tag)的信息。通过上述命令转换后,kinetics.ccs.bam文件中每条ccs序列都会带上该序列正链(forward)和反链(reverse)的ip (fi,ri)和pw (fp,rp)标签。
后续直接运行primrose,输入文件为kinetics.ccs.bam,生成5mc.ccs.bam。这一结果会移除4个kinetics标签,生成2个碱基修饰相关标签(Mm和Ml)。
二、 结果分析
在primrose分析后的结果bam里,假设有上述这样一条序列,其中红色的C,代表对应碱基有5mC甲基化修饰,那么它的Mm用samtools view的话,显示为:Mm:Z:C+m,4,3,5,0,6
两个分号中Z代表该tag的数据类型是字符串,其中C+m,代表在‘+’链上存在C碱基的甲基化(m),其数字解读方式为,在所有C碱基中,跳过4个未修饰,为第一个修饰碱基,再跳过3个,为第二个修饰碱基,再跳过5个....以此类推。
Ml标签则对应Mm中修饰碱基个数的8位整形数组,其值在0-255间,表示对应碱基存在修饰的概率。若值为n,则对应碱基存在修饰的概率在 n/256到(n+1)/256之间。
为了解Ml值的实际分布情况,笔者用PacBio公开的HG002个体的HiFi数据集中的一整片Cell的subreads数据,重新用全默认参数运行了ccs和primrose,统计Ml读值,见下图。可见,目前算法产生的Ml值,会在两侧极值周围有比较高的频度。
目前的primrose软件还只是刚发布的原型,还有待成熟,原因体现在以下几点:
1、数据的有效利用率只有50%。从HiFi序列的kinetics标签可以发现,实际上每条ccs,都会同时记录正向和反向序列的ip和pw。所以理论上,是完全可以对DNA的两条链,分别产生C+m和C-m类型的Mm tag,而目前软件的输出只有正向序列的信息。
2、对于算法准确性的描述比较模糊。PacBio Github页面只给出了下面这些非常概括性的统计量,但并没有描述MI值多高会被记为阳性,具体的过滤标准如何。
三、小编说
无论如何,小编认为5mC的HiFi测序时代马上就要到来了,而且必然会成为未来的一个研究热点!
1、学界已在为即将到来的碱基修饰分析制定标准。可以看到,在21年12月底Mm和Ml tag的定义已经正式进入samtools的标准,PacBio的这个primrose工具只是严格地遵从了这个定义。相信今年开始业界会陆续有下游的配套软件来支持进一步的甲基化数据分析。
2、HiFi数据类型对于甲基化研究是一个前所未有的突破。尽管此前已有许多不同的平台和方法可以研究基因组甲基化,但要么是读长过短,要么本身的准确性不够,因此最多只能做到在单个碱基水平上去研究甲基化,没有办法在分析过程中同时保留Phasing的信息。要研究亲本印迹、寻找印迹基因,只能通过间接的手段去统计、推测。而HiFi序列既长且准的特性,则可直接克服上述困境,做到“Seeing is believing”,一步直接鉴别印迹基因。
通过上面的分析,可以了解到,尽管HiFi甲基化下游的分析工具还未成熟,但数据积累在目前就可以进行筹备了。对于普通的PacBio终端用户,可以有两种选择:
1、保留好项目subreads的bam文件。后继有需要时,就如本文之前介绍的那样,再自行去转化带有kinetics标签的ccs,以及等下游分析工具进化、成熟。
2、若您使用Sequel IIe测序,可在SMRTlink - RunDesign高级设置中开启如下图所示的对应选项,下机数据直接生成ccs文件,直接得到含有kinetics标签的reads.bam。
从目前的各类信息来判断的话,从subreads生成ccs中的kinetics标签这个步骤应该比较稳定了,预计不会有太大的变化。而kinetics标签到甲基化标签的过程,还需要一定的时间才能成熟,因此直接保存带Mm和Ml 标签的ccs,尽管从数据存储上讲,体积最小、成本最低,但并不保险。而保留带Kinetics标签的ccs,文件的体积比subreads格式小,亦是一个折衷的选择。
基因有限公司作为PacBio中国区的独家代理商,自2011年将PacBio单分子实时测序技术引入国内以来,一直为国内用户提供专业的PacBio测序系统的安装、培训、技术支持与售后维护服务,赢得用户的一致认可与信任。