书城自然科学自然科学与技术研究方法
47031100000033

第33章 新技术研发方法(3)

3.2.1 第一代测序技术

第一代测序技术是指传统的化学降解法、双脱氧链终止法,以及在它们的基础上发展起来的各种DNA测序技术。目前应用最广泛的是由Frederic kSanger发明的Sanger双脱氧链终止法,以及Maxam和Gilbert发明的化学降解法。这两种方法在原理上差异很大,但都是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,产生A、T、C、G4组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得DNA序列。化学降解法是先用同位素32P标记DNA链的末端,然后用化学试剂处理标记好的DNA链,使DNA分子在被处理的地方降解,造成碱基的特异性切割,产生一组具有各种不同长度的DNA链的反应混合物,凝胶电泳将DNA链按长短分开,根据放射自显影显示的条带直接读出DNA的核苷酸序列。化学降解法刚问世时,准确性较好,也容易为普通研究人员所掌握,因此用得较多。化学降解法具有一个明显的优点,即所测序列来自原DNA分子而不是酶促合成产生的拷贝,排除了合成时造成的错误。但化学降解法操作过程较麻烦,逐渐被简便快速的Sanger法所代替。Sanger法测序的原理就是,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)使之扩增,并混入限量的一种不同的同位素标记的ddNTP使之终止。由于ddNTP缺乏延伸所需要的3′-羟基(-OH)基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,终止点由反应中相应的双脱氧而定。

它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片的放射自显影进行检测,这个时期的测序完全是手工操作。为了克服同位素的危害和操作时的不方便,随着计算机软件技术、仪器制造和分子生物学研究的迅速发展,在20世纪80年代中期出现了荧光标记的Sanger方法,用荧光标记代替同位素标记,并且利用成像系统自动检测,计算机图像识别,使DNA测序进入自动化,出现自动测序仪,完全不同于最初的手工测序,从而大大提高了DNA测序的速度和准确性。目前广泛使用的DNA自动化测序仪的原理是:用不同荧光分子标记四种双脱氧核苷酸,然后进行Sanger测序反应,反应产物经电泳分离后,通过四种激光激发不同大小DNA片段上的荧光分子使之发射出四种不同波长荧光信号,并以此确定DNA碱基的排列顺序。DNA自动测序方法以其简单(自动化)、安全(非同位素)、精确(计算机控制)和快速等优点,逐渐成为DNA序列分析的主流,完全替代了手工测序。20世纪90年代中期,测序仪又进行了重大的改良,用集束化的毛细管电泳代替凝胶电泳,使得测序速度大大提高。第一代测序技术最常用的测序仪是ABI3730XL,拥有96道毛细管,读长超过1000bp,原始数据的准确率高达99.999%,测定每千碱基序列的成本是0.5美元。该仪器在测序速度和成本方面都已达到了极限,由于其对电泳分离技术的依赖,使其难以进一步提升分析速度,并且难以通过微型化降低测序成本。尽管如此,ABI3730XL的方法可靠、准确,且已形成规模化,特别是在PCR产物测序、质粒和细菌人工染色体的末端测序,以及STR基因分型方面,将继续发挥重要作用。随着生命科学的飞速发展,传统的Sanger测序已经不能完全满足研究的需要,对模式生物进行基因组重测序以及对一些非模式生物的基因组测序,都需要费用更低、通量更高、速度更快的测序技术,第二代测序技术应运而生。

3.2.2 第二代测序技术

其核心思想是边合成边测序,即通过捕捉新合成的末端的标记来确定DNA序列。

现有的技术平台主要包括Roche/454FLX、Illumina/SolexaGenome Analyzer(合成测序)和Applied Biosystems SOLID system(连接测序)。这3个技术平台各有优点,454FLX的测序片段比较长,高质量的读长能达到400bp;Illumina测序性价比最高,不仅机器的售价比其他两种低,而且运行成本也低,在数据量相同的情况下,成本只有454测序的1/10;SOLID测序的准确度高,原始碱基数据的准确度大于99.94%,而在15倍覆盖率时的准确度可以达到99.999%,是目前第二代测序技术中准确度最高的。

454公司是新一代测序技术的奠基人。2005年年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统——Genome Sequencer 20 System,被Nature杂志以里程碑事件报道,开创了边合成边测序的先河。之后,454公司被罗氏诊断公司以1.55亿美元收购。一年后,他们又推出了性能更优的第二代基因组测序系统——Genome Sequencer FLXS ystem(GSFLX)。2008年10月,全新的GSFLXT itanium系列试剂和软件的补充,让GSFLX的通量一下子提高了5倍,准确性、读长也进一步提升。454公司用新一代测序仪对DNA双螺旋结构的发明者James Watson进行了基因组测序。第一份个人基因组图谱的绘制只用了两年时间,花费不到100万美元。虽然现在看来这并不算什么,但就当时而言,它相对于人类基因组计划已是质的飞跃。454GSFLX系统测序是基于pyrosequencing(焦磷酸测序)的原理,DNA聚合酶在将一个dNTP聚合到模板上的时候,释放出一个PPi(焦磷酸分子);在ATP Sulfurylase(ATP硫酸化酶)催化下,PPi与APS生成一个ATP分子;ATP分子在Luciferase(荧光素酶)的作用下,将luciferin(荧光素)氧化成氧化荧光素(oxyluciferin),同时产生的可见光被CCD光学系统捕获,获得一个特异的检测信号,信号强度与相应的碱基数目成正比。

GSFLX系统的流程概括起来,就是“一个片段=一个磁珠=一条读长”(Onefragment=Onebead=Oneread)。454平台突出的优势是单个序列的读长更长,平均可达到400500bp。它在技术上的优势还包括:速度快,一个测序反应耗时10个小时,获得100余万个读长和4-6亿个碱基对。测序读长最长,读长准确度高,读长超过400bp时,单一读长的准确性可以超过99%;一致性好,测序结果一致性超过99.99%;可以进行Pair-End测序研究。虽然454平台的测序成本比其他平台要高很多,不过对于那些需要长读长的应用,如从头拼接和环境微生物组学,它仍是最理想的选择。454GSFLX主要应用于全基因组denovo测序、全基因组或基因组区域重测序、转录组测序、PCR产物重测序、宏基因组测序等方面。

Solexa技术最早由两位剑桥大学的化学家创立,利用核心技术“DNA簇”和“可逆性末端终结”,达成自动化样品制备及基因组数百万个碱基大规模平行测序。Illumina公司于2007年收购Solexa,并推出成熟商业产品Genome Analyzer(基因组分析系统)。

该系统为新一代革新性技术,是分子生物学综合技术平台,具有高准确性、高通量、高灵敏度和低运行成本等突出的优势,可以同时进行传统的基因组学研究(测序和注释)及功能基因组学(基因表达及调控、基因功能、蛋白质/核酸相互作用)的研究。

红色单链表示模板链,引物用黑色表示,DNA聚合酶以绿色的椭圆表示,每当渗入一个碱基时,就会释放焦磷酸(PPi),然后被磷酸化酶(phosphorylase,图中蓝色箭头所示)转化成ATP,然后磷酸素酶就可以在ATP参与下将荧光素转变为氧化荧光素,同时发光也会被测序仪检测到。

原理是:将基因组DNA打成几百个碱基或更短的小片段,在片段的两个末端加上接头;通过碱基互补配对固定在表面连接有一层单链引物的芯片上;引物扩增使单链DNA成为双链,变性后双链成为单链的一端(5′或3′),“固定”在芯片上;另一端随机和附近的另一个引物互补,被“固定”住形成“桥”,这样的反应在上千万个DNA单分子上发生;形成的单链桥以周围的引物为扩增引物,在芯片表面进行扩增,形成双链,反复30轮扩增,每个单分子得到1000倍扩增,成为单克隆“DNA簇群”;通过可逆性末端终结反应在Genome Analyzer上对“DNA簇群”进行序列分析。在Sanger等测序方法的基础上,分别用4种不同荧光标记4种碱基,每个碱基末端被保护基团封闭,单次反应只能加入一个碱基,每添加一种dNTP就会释放出不同的荧光,经过扫描,读取该次反应颜色后,保护基团被除去,下一个反应可继续进行,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得该碱基的信息,如此反复,得出碱基的精确序列。此技术不需要荧光标记的引物或核酸探针,也无须进行电泳,具有分析结果快速、准确、灵敏度高和自动化的特点。

ABISOLiD全称为supported oligonucleotide ligation detection,它通过文库制备、乳液PCR(微珠富集)、微珠沉积、连接测序和数据分析完成测序反应。它的独特之处在于以四色荧光标记寡核苷酸的连续连接合成为基础,取代了传统的聚合酶连接反应,可对单复制DNA片段进行大规模扩增和高通量并行测序。就通量而言,SOLiD3系统是革命性的,目前SOLiD3单次运行可产生50GB的序列数据,相当于17倍人类基因组覆盖度,这是其他任一台新一代测序系统都无法达到的。而其无与伦比的准确性、系统可靠性和可扩展性更让它从其他新一代测序平台中脱颖而出。至此,SOLiD系统已不再是一台单纯的测序仪,而是成为功能更全面的基因分析仪。除了测序和重测序,还能进行全基因表达谱分析、SNP、microRNA、ChIP、甲基化等多种分析。

和其他所有测序仪一样,测序错误在所难免,关键是对测序错误的评价和后续处理。由于SOLiD系统采用了双碱基编码技术,在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。这样,双保险确保了SOLiD系统原始碱基数据的准确度大于99.94%,而在15倍覆盖率时的准确度可以达到99.999%,是目前新一代基因分析技术中准确度最高的。

在第二代测序技术中,序列都是在荧光或者化学发光物质的协助下,通过读取DNA聚合酶或DNA连接酶将碱基连接到DNA链上过程中释放出的光学信号而间接确定的。除了需要昂贵的光学监测系统,还要记录、存储并分析大量的光学图像。这都使仪器的复杂性和成本增加,依赖生物化学反应读取碱基序列更增加了试剂、耗材的使用,在目前测序成本中比例相当大。接二连三的个人基因组图谱绘制陆续完成,说明了第二代测序技术的强大力量,但是第二代测序技术很快就遇上了强劲的对手——第三代测序技术。