-
生物通官微
陪你抓住生命科技
跳动的脉搏
刘小乐等:分析CRISPR/Cas9敲除的新算法
【字体: 大 中 小 】 时间:2014年12月19日 来源:生物通
编辑推荐:
2014年12月5日,华人女学者、哈佛大学公共卫生学院Dana-Farber癌症研究所刘小乐(X Shirley Liu)博士带领的研究小组,在国际著名学术期刊《Genome Biology》发表了一项最新生物信息学研究成果。在这项研究中,研究人员开发出一种统计方法,被称为基于模型的全基因组CRISPR/Cas9敲除分析(MAGeCK),来确定来自于CRISPR/Cas9筛选的必需sgRNA、基因和通路。
生物通报道:2014年12月5日,华人女学者、哈佛大学公共卫生学院Dana-Farber癌症研究所刘小乐(X Shirley Liu)博士带领的研究小组,在国际著名学术期刊《Genome Biology》发表了一项最新生物信息学研究成果,题为“MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens”。在这项研究中,研究人员开发出一种统计方法,被称为基于模型的全基因组CRISPR/Cas9敲除分析(MAGeCK),来确定来自于CRISPR/Cas9筛选的必需sgRNA、基因和通路。
本文通讯作者刘小乐博士,青年时代就读于天津南开中学, 1992 年考入北京大学生物系。1994 年转学到美国史密斯女子学院双修生物化学和计算机科学, 三年后以最高拉丁荣誉毕业。2002 年于斯坦福大学取得生物医学信息学博士和计算机科学辅修博士学位后, 被直接聘为哈佛大学终身制助理教授。她目前担任哈佛大学公共卫生学院生物统计与计算生物学系的终身正教授、Dana-Farber 肿瘤研究所功能性癌症表观遗传组学中心主任和同济大学生物信息学系教授并****讲座教授。研究工作侧重于基因调控机制的生物信息和计算机生物学研究。发表论文多篇,其中19篇在Nature/Cell系列期刊。
成簇的规律间隔短回文重复序列(CRISPR)/Cas9系统是用于哺乳动物基因组编辑的一种全新方法。在这个系统中,单导向RNAs(sgRNAs)指导Cas9核酸酶诱导DNA双链在靶向基因组区域断裂。sgRNAs的5’端包括大约20nt的核苷酸序列,与靶序列是互补的。当双链断裂被非同源末端连接(NHEJ)修复时,插入和缺乏就会高频率地发生,从而有效地敲除靶基因组位点。
最近开发的一种慢病毒传递方式,已经能够创建基因组范围的CRISPR/Cas9敲除(或GeCKO)文库,靶定100到10000个基因。这些文库可让我们以一种划算的方式,在哺乳动物细胞系上进行阴性和阳性筛选。在CRISPR/Cas9基因敲除筛选中,每个基因被几个sgRNA靶定,携带不同基因敲除的突变体库,可以通过高通量测序得以解决。
与其他功能缺失的筛选技术(如RNAi)相比,全基因组CRISPR/Cas9敲除技术显示出更大的希望,因为它能够在DNA水平敲除基因。然而,这些筛选所产生的数据,给计算分析提出了几大挑战。首先,研究往往没有重复或者仅重复几次,这必然需要一种适当的统计模型来评估读取数据的方差,并评估处理样本和对照样本之间对比的统计学意义。所观察到的sgRNA丰度,在阴性和阳性筛选实验中都是高度可变的,与一个泊松抽样模型相比,它们都是过度分散的。(这种过度分散类似于其他高通量测序实验的观察结果,如RNA-seq)
第二,因为靶定相同基因的不同sgRNA有不同的特异性和敲除效率,因此需要一种强大的方法,在聚集来自于多个sgRNA的信息时能够把这些因素考虑在内。第三,根据不同的筛选文库和研究设计,CRISPR/Cas9敲除筛选实验的读取数据分布是不同的,因为阳性选择往往产生一些sgRNA(总序列读取占支配地位)。这需要对序列读取进行强大的归一化。
现有的几种算法,虽然不是专门为CRISPR/Cas9敲除筛选设计,但是可以用来明确识别选择的sgRNA或基因。例如,edgeR、DESeq、baySeq和NBPSeq是常用于差异性RNA-seq表达分析的算法。这些算法能够评估CRISPR/Cas9敲除筛选中点击数的统计学意义,尽管只是在sgRNA水平。
一些算法——旨在排列基因组规模短干扰RNA(siRNA)或短发夹RNA(shRNA)筛选数据中的基因,也可以用于CRISPR/Cas9敲除筛选数据,包括RNAi Gene Enrichment Ranking (RIGER)和Redundant siRNA Activity (RSA)。然而,这些方法主要设计用以确定大多来自于寡核苷酸条码微阵列数据的必需基因(essential gene),一种新的算法必须优先考虑sgRNA,以及来自高通量测序数据的基因和通路。
在这项研究中,研究人员开发出一种统计方法,被称为基于模型的全基因组CRISPR/Cas9敲除分析(MAGeCK),来确定来自于CRISPR/Cas9筛选的必需sgRNA、基因和通路。研究之所以用“essential”这个术语,指的是阴性或阳性选择的sgRNAs、基因或通路。
与现有计算方法相比,MAGeCK的优势在于,它能控制错误发现率,而且它具有很高的灵敏度。MAGeCK的结果也对不同的测序深度和每个基因的sgRNA数目,有很强的稳健性。此外,使用公共CRISPR/Cas9敲除筛选文库,研究人员证明,MAGeCK能够同时进行阳性和阴性选择筛选,并确定具有生物学意义及细胞类型特异性的必需基因和通路。
(生物通:王英)
延伸阅读:Science综述:CRISPR-Cas9系统的历史和未来
生物通推荐原文摘要:
MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens
Abstract: We propose the Model-based Analysis of Genome-wide CRISPR/Cas9 Knockout (MAGeCK) method for prioritizing single-guide RNAs, genes and pathways in genome-scale CRISPR/Cas9 knockout screens. MAGeCK demonstrates better performance compared with existing methods, identifies both positively- and negatively-selected genes simultaneously, and reports robust results across different experimental conditions. Using public datasets, MAGeCK identified novel essential genes and pathways, including EGFR in vemurafenib treated A375 cells harboring a BRAF mutation. MAGeCK also detected cell-type specific essential genes including BCR and ABL1 in the KBM7 cells bearing a BCR-ABL fusion, and IGF1R in the HL-60 cells, which depends on the insulin signaling pathway for proliferation.
知名企业招聘