站在生物时代尖口 把握芯片技术至高点[创新技巧]

【字体: 时间:2005年11月29日 来源:生物通

编辑推荐:

  

引言花絮:10月最受关注的分子生物学进展恐怕就是10月27日国际单型作图项目的第一批成果在Nature上的公布了,这次从来自不同人群测出的超过百万SNP单核苷酸多态性对于人类疾病的发现以及药物筛选帮助极大。在这一工作的顺利完成过程中,有一项技术功不可莫,那就是DNA阵列(生物芯片)技术。

他们是:生物技术革新者
    DNA微阵列相比于传统的Northern杂交、RT-PCR和核酶保护性分析等只针对单个基因来分析的技术手段来说具有独一无二的优势——Microarray可以同时分析样品中成千上万的基因数据,这种高通量模式使得DNA研究效率陡然提高成千上万倍,而研究的层面也从局部单个基因上升到总体全局的基因之间相互关系,因此迅速得到广泛应用——基础研究方面如基因表达水平的检测、基因间相互作用模式、基因诊断、测序;产业化方面也有药物筛选、药物基因组图谱、个性化治疗、中药物种鉴定、农作物的优育优选、司法鉴定、食品卫生监督等许多领域。如果说80年代是克隆技术的世界,90年代的PCR及其衍生技术横扫天下,那么21世纪的生物科研就是芯片技术的时代。确实,在近几年来Microarray由于在人类基因组测序研究中大放异彩而被誉为近10年生命科学研究领域中的最高效技术之一。

    说来生物芯片Biochip这个概念有点意思,由于“基因芯片GeneChip”这个名词率先被生物芯片业内的龙头老大——Affymetrix公司专利注册了,其他人只好通用Microarray,DNA微阵列这些名词代表“基因芯片”技术。随着各项研究的逐步深入,原有的芯片技术无法满足迅猛发展的科研需求,在芯片制作技术越来越成熟的条件下出现了一些提供不同服务的芯片。比如蛋白芯片,组织芯片,细胞芯片,RNA芯片等等概念都是将不同样品材料集成到固相介质上(比如玻片),从而实现一次杂交同时检测分析样品中成千上万的不同目标。这些都可以归结为生物芯片(Biochip)这个含义广泛的概念。不过,尽管有众多的后起之秀,DNA芯片依然是今天芯片应用的主流,而且,最新的基因芯片功能之强大,绝对无人能及。

他们中的佼佼者:500K超大容量SNPs芯片

    寻找易感基因(疾病基因)一直是人类基因组研究的重要目的之一。从第一代的RFLP(限制性片段长度多态性分析),到第二代的STR(短串联重复标记,即微卫星标记),再到后来发展出现的SNP(单核苷酸多态性),致病基因定位方法越来越完善,越来越准确。

    SNPs是指在基因组水平上由于单个核苷酸位置上存在转换(C与T互换,在其互补链上则为G与A互换)或颠换(C与A,G与T,C与G,A与T互换)等变异所引起的DNA序列多态性。SNP是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上,并且SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多(人类基因组3×109),因此SNPs是一种非常适合做为基因标记的研究方法。而在利用SNPs进行分析的时候,不同的研究需要可以利用到不同的研究平台,比如说在以准确性为要求的前提下,也就是说如果样品中SNPs比较少,那么就可以选择选择ABI的TaqMan实时荧光PCR(见ABI推出全新miRNA表达荧光定量产品),如果是以全面性做为实验目的的话(全基因组的高密遗传分析是目前复杂疾病致病基因查找的最行之有效的研究思路),那么就一定要使用到基因芯片啦,目前已经广泛使用的是Affymetrix的10K,100K的GeneChip Arrays(其中10K表示10,000个标记), 这种方法相对于STR具有许多明显的优点(见下图):




    因此许多研究人员利用这一技术获得了大量的致病基因,并且也解决了一些以前悬而未决的问题。但是随着研究一步步的深入,要真正实现全基因组的高密遗传分析,10K、100K已经不能满足科学家的要求了,因此Affymetrix公司近期又推出了500K(25万SNP密度),这一超大“容量”的芯片有几项数据可以令研究人员眼睛一亮:

  • 点矩:5μM,600个点;

  • 平均异质性(average heterozygosity):0.30;

  • 平均次等位基因率(average minor allele frequency):0.22;

  • 25万个SNP标记

  • 每5.4kb就有一个Marker,而人类基因组3×109,也就是说每个基因基本上可以有一个Marker。

    由于有这样大面积覆盖率的SNPs分析,研究人员就可以利用芯片寻找像糖尿病,心血管疾病等远系疾病的基因了(所谓远系疾病是相对于家族遗传疾病来说的,家族遗传疾病由于致病基因跨度大,需要的SNPs少,因此可以用10K或者更少的芯片分析,但是远系疾病在进化过程中分散出去,造成基因定位的困难,这也就是为什么这些疾病难以研究的原因)。就在最近,来自Harvard Medical School-Partners Health Care Center for Genetics and Genomics的科研人员利用500K芯片分型发现了动脉硬化这一高发疾病的重要基因。

吹响转录组时代号角――全外显子芯片

一个概念:在我们学习基因调控的时候,有一个概念是会被老师强调来强调去的,那就是真核生物与原核生物基因调控的重要区别——转录后水平的可变剪接(Alternative Splicing)调控。可变剪接是指同一基因转录形成的初级RNA经过不同的剪切和连接方式形成不同的RNA的过程。具体来说,就是在基因转录时,先是产生和基因整体序列完全相同的RNA 序列,称为前体mRNA,接着前体mRNA 中的一些称为内含子(INTRONs)的片段被剪掉,剩下的称为外显子(EXONs)的片段被顺序连接在一起,再经过对头尾两端的一定处理,就成为成熟mRNA,这个过程叫剪接(splicing)。一般地,一个基因的外显子和内含子的数目及所在位置是固定的。但也可能出现外显子和内含子数目及所在位置不固定的情况,这时,一个基因可以转录成多个不同的成熟mRNA,这就称mRNA可变剪接,它的直接后果是一个基因产生多个不同功能的蛋白质。如下图所示:



    人类的基因数目只有3 万多个,这甚至比一些植物还少。那么如何理解人比其他生物高得多的进化程度?一个重要原因是高等动物的很多基因(如人的基因有一半以上)都涉及mRNA 可变剪接。可变剪接使得一个基因能表达出多个不同的蛋白质,这使得人在蛋白质组水平上表现出极高的复杂性。mRNA 可变剪接涉及生命现象的很多方面,如细胞分化,个体发育,免疫机理,某些遗传病的发生等等。比如说最新研究表明人类14 号染色体上一个基因是neurexin 3,该基因的跨度达到170 万个碱基对,是14 号染色体上最大的基因,其大小是所有基因平均的30倍。由于可变剪接这个基因可能存在上千个不同的微小变化,使得该基因与脑中的突触联接有重要作用。

原理目的:既然明白了可变间接Alternative Splicing这个概念,那么就能很好的理解外显子芯片的目的了:据估计人类基因组高达70%以上的基因涉及了mRNA的可变剪接,这使得人在蛋白质组的复杂性上比其它生物高出很多,这也就给研究人员在研究疾病机理和找出治疗方法上带来了极大的不便,比如说想要知道在各种组织中是否哪个组织会有外显子表达量特别高的情况,因此为了解决这个问题,外显子芯片应运而生。

    那么这种外显子芯片是如何设计探针的呢?

    芯片上每一个探针的设计自然是来自于基因组序列,其中主要是参照了基因外显子簇、相关联的外显子以及转录簇(transcript cluster)的序列。这样把每个Exon(cDNAs和ESTs)当作一个探针选择区(probe selection region, PSR),在每个选择区设计4个以上的探针,而且由于目前对于基因的可变剪接所造成的各种外显子了解并不十分清楚,因此需要在已知的Exon基础增加一些预测的外显子序列,以确保筛选时的精确性,象Affymetrix的Exon Array就选择了来自GenScan、Ensembl、Vega、Geneid and sgp、microRNA Registry和TwinScan等处的基因序列(并且Affymetrix也把小鼠与大鼠的全长cDNAs包括了进去,以便研究外显子表达进化情况)。


一个都不能少——Tiling 芯片
    Tiling的意思是指贴、盖、搭的意思,Tiling芯片也就是嵌合芯片的意思,这是一种非常适合于全基因组分析的针对所有转录本的DNA微阵列。虽然也是Tiling Array与Exon Array同属于寡核苷酸芯片类别,但是两者的目的不同,设计的原理亦不一样:一个是从编码区mRNA序列入手,一个则是从全基因组概念上每隔35个bp设计一段25bp长度的探针。粗略的计算一下,人类基因组共有30亿个bp,每隔35个bp设计一个探针,这也就是说在一段为100bp片段有3个探针,30亿个里有3千万个探针,真是个可怕的数据,但是也正是这么密集的探针数才能保证对整个基因组全转录本的扫描,保证一个也不会少。因此对于研究转录因子在基因上不同位置的定位,以及DNA甲基化、组蛋白乙酰化有极好的应用。

他们能:完成许多不可能的任务

    由于人类基因组测序的完成,留给了研究人员海量的数据,要想利用这些数据做一点有益的工作,那么就非芯片不可了。以一个针对疾病基因筛选的工作来说,首先可以利用芯片技术海选,即将样品在基因组芯片上筛选一遍,进行生物信息学分析,这样可以将范围缩小到几个区域,然后依然是利用商品化的或者是定制的芯片进一步将范围缩小,获得的片段进行大量测序(还是需要芯片技术),最后对定位的几个基因功能飞行,这一步分析也需要表达芯片的参与。再比如中药筛选方面,由于目前中药产业和传统的西药开发遇到的重大障碍是如何分离和鉴定药的有效成份,如果利用芯片技术就有可能较快地解决这一障碍,利用基因芯片分析用药前后机体的不同组织、器官基因表达的差异。如果再cDNA表达文库得到的肽库制作肽芯片,则可以从众多的药物成分中筛选到起作用的部分物质。还有利用RNA、单链DNA有很大的柔性,能形成复杂的空间结构,更有利与靶分子相结合,可将核酸库中的RNA或单链DNA固定在芯片上,然后与靶蛋白孵育,形成蛋白质-RNA或蛋白质-DNA复合物,可以筛选特异的药物蛋白或核酸,因此芯片技术和RNA库的结合在药物筛选中将得到广泛应用。

他们需要的:基本工作流程

    一般而言,DNA微阵列操作过程并不复杂,即使没有做过芯片的人其实都能明白,主要就是四步:样品制备→标记→杂交→数据分析,以Affymetrix GeneChip为例

样品制备:样品可以分为RNA样品和DNA样品,其中RNA样品需要首先逆转录成cDNA才能进行标记检测。目前,由于检测灵敏度所限,尚难以普通探针对极少量的核酸分子进行杂交和检测,所以需要对样品或后续测试信号进行适当的放大。多数方法需要在标记和分析前对样品进行适当程度的扩增,例如通过PCR方法,以使样品核酸的拷贝数提高达到检测的灵敏度。这需要同时对样品核酸分子大量的区域进行扩增。

    在准备样品的过程中,有一步是去除了多余的RNA的。由于我们得到的样品是总RNA,也就是说包括了mRNA、rRNA(核糖体RNA)以及tRNA,其中rRNA占了大约80%的比例,但这一部分又不是在下一步的实验中需要的,而且很可能会造成RNA污染增加非特异性扩增,因此需要清除rRNA,保留下20%的mRNA。

标记方法: 目前样品的标记方法主要是荧光标记,荧光标记分为2类,一类是标记引物,一类是标记三磷酸脱氧核糖核苷酸。标记物可以是荧光分子直接标记,也可以借助生物素间标从而放大信号以得到更漂亮的结果。例如生物素标记引物,将生物素标记的扩增产物与芯片杂交,洗涤后加入亲合素连接的荧光物,通过生物素与亲合素的结合及靶序列与探针的结合产生荧光信号,然后利用荧光检测系统对荧光信号进行检测。在这个过程中为了确保实验的可靠性和可重复性,一般会使用单色标记,以减少流程或者芯片制作过程中所造成的控制性差异。双色荧光标记就可以用不同颜色荧光素标记两个引物。

杂交反应:芯片上的生物分子之间的反应是芯片检测的关键一步。通过选择合适的反应条件使生物分子间反应处于最佳状况中,减少生物分子之间的错配比率,从而获取最能反映生物本质的信号。因为单链DNA(寡核苷酸)制备的芯片有助于防止双链DNA在杂交时产生干扰,而且芯片上各点寡核苷酸长度相对一致,使得杂交条件较为一致,有助于减少由于双链DNA长度差别导致杂交条件差异的问题,这使得寡核苷酸芯片的结果更加可信,渐有替代dsDNA芯片之势而日渐流行。

信号检测:随着芯片上集成度越来越高样品点数越来越密,每个点就越来越小,除了检测前对样品分子的放大外,通常仍需要有高灵敏度的检测设备来采集、处理和解析生物信息。芯片扫描仪采集各反应点的荧光强弱和荧光位置,对每一种染料扫描后的图象通过一定的软件处理并合并得到每个点的重叠图。点数和每点的强度定量确定,确定背景强度并被减掉。对照点,或是额外加入的序列,或是报道基因,或是每个样本的总的荧光信号强度,来帮助校正两种荧光染料的标记差异和检测效率。两个样本中的每个基因信号用控制好的强度进行扫描测量。经相关软件分析图像,即可以获得有关生物信息。

数据分析:其实这一步要比之前的实验操作复杂,要不怎么有一位科学院院士说,“以后生物实验室中要有50%-70%的人从事生物信息学工作”呢。而且据统计,国际生物芯片的专利62%都集中在数据分析领域,可见这一方面确实是芯片研究领域的重点和焦点。毕竟,进行这么复杂的操作,目的总归是要得出一个结论,如何分析这些数据,发现其中的规律,就要看实验者在数据分析方面的功力了。很多芯片产品的供应商都有提供服务项目,比如Affymetrix由于专用设备非常昂贵而为普通用户提供前面提到全套服务——但是如何从数据中快人 一步找到背后隐藏的规律甚至价值不菲的专利,你,是无可替代的。这也正好体现出:研究人员的最高价值在于发现问题、分析解决问题的能力,而非熟练操作——所有的试剂仪器供应商竭尽全力开发能简化操作的研究工具,但是使用工具的研究者才能真正决定一切。

    在对全外显子芯片得到的数据进行分析要分为几个步骤,首先需要确定每个外显子在样品中是否有变化,但是光这样确定了毫无意义,因为样品本身基因表达就有高有低,并且还由于可变剪接的存在,因此需要下一步的分析。这下一步就是检测整个基因表达本身是否有变化,接着就是确定在整个基因中哪儿出现了可变剪接。这些步骤都是需要海量的数据分析和可靠的实验来支撑的,相关的软件可以下载。(生物通作者张迪)

Affymetrix芯片技术最新讲座:(中文)

1     WTA Exon Array Asia Tour Presentation
2     Understanding Genetics of Disease Using Affymetrix GeneChip Arrays
 

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号