“人类基因组计划”就是“解读”人的基因组上的所有基因。由于我们的基因都在24个染色体DNA分子上,“人类基因组计划”最终目的,就是分析这24个DNA分子中4种碱基对:A、T、C、G。假设人类的基因组是条长城,由30亿块砖头组成,砖头只有4种:或A,或T,或C,或G,这就是人类基因组成的DNA序列图。但是,这条长城太长了,在搞清每一块砖头之前,需要画几张地图,否则就乱了。
1.物理图:DNA的路标
物理图是基因组计划的第一张图。物理图是一个以“物理标记”作为路标,以Mb、Kb、bP作为图距的基因组图。物理图与遗传图相互参照就可以把遗传学的信息转化为物理学信息。如某一区域的大小为多少cM可以基本折算为某一区域大小为多少Mb。物理图的绘制需要筛选大量的物理标记以及进行大量复杂和繁琐的分析。一个研究人员即便每周连续工作7天,完成绘制人类基因组物理图所需的1500万个分析也要几百年。现在,有了一个大的机械装置的帮助,可同时进行15万个分析,研究者仅用1年时间就筛选出了足够多的遗传标记。1995年,第一张以称为序列标签位点STS为物理标记的物理图谱问世,它包括了94%的基因组和15000多个标记位点,平均间距为200Kb(这就是所谓的分辨率)。这样,物理图就把人类庞大的基因组分成具有界标的15000个小区域。
那么,物理图是怎样绘制的呢?首先,科学家从人类的DNA中鉴定出15000种单一的遗传标记——序列标签位点STS。这些STS各约300个碱基大小,在基因组中仅出现一次,然后,通过筛选含有人基因组DNA片段的酵母人工染色体库(YAC)来确定这些STS标记在基因组上的顺序。YAC库就是一个含有人类染色体约1MbP大小片段的酵母人工染色体克隆群,约三万个克隆。如果2个STS标记间距小于1Mb,它们将可能存在于同一个YAC克隆中。这样,利用自动的机器,分别以STS片段为标记探针对每个YAC染色体DNA进行PCR扩增,接着将反应产物转移至一种可吸附DNA的支持物上,鉴定出阳性克隆,然后将结果输入数据库中,利用计算机软件分析就可确定这些STS的顺序。如果要更精确地确定STS之间的准确距离,还可结合利用称之为BAC和MAC的技术。BAC是细菌人工染色体的简称,可克隆长度为80~200Kb的异源DNA片段,确定距离较近的STS标志。MAC则是以哺乳动物细胞作为宿主细胞的人工染色体技术,作为异源DNA片段的载体,MAC所装载的异源DNA片段长度可达10Mb左右,比YAC容量大,这样,间隔较大的STS标记间的距离也可以确定了。最终,以STS为物理标志的物理图谱就绘制成功了。
人类基因组物理图的问世是基因组计划中的一个重要里程碑,被遗传学家誉为20世纪的“生命(生物学)周期表”。与门捷列夫在100多年前所发现的元素周期表相比,意义同样重大和深远。利用一张遗张图,研究人员可将一种特定的遗传病的遗传模式同标记顺序的遗传模式进行比较,迅速确定引起该遗传病的基因的位置。然后,计算机把数据固定在物理图框架内。遗传图与物理图结合在一起,就能迅速确定与疾病有联系的基因。物理图问世标志着离人类基因组全序列测定仅有一步之遥了。
2.转录图:生命的乐谱
通俗地说,转录图就像生命的乐谱。如果说人的每个细胞里的所有DNA决定6~10万基因的话,在每一种组织的细胞中,大概只有10%的DNA能表达,而表达的第一阶段就是“转录”。
我们知道,生物性状是由结构或功能蛋白决定的,功能蛋白是由信使RNA(mRNA)编码的,mRNA又是由编码蛋白功能基因转录而来的。转录图就是测定这些可表达片段(EST)的标记图。事实上,整个人类基因组中有97%的部分由不被转录的DNA组成,仅有2%~3%的DNA序列具有编码蛋白质的功能。在人体某一特定的组织中并非全部基因都表达。仅有10%的基因被表达。也就是说,只有不足1万个不同类型的mRNA分子(只有在胎儿的脑组织中,可能有30%~60%的基因被表达)。如果将这些mRNA通过一种反转录的过程构建成cDNA文库,然后再测定这些DNA的序列,最终绘制成一张可表达基因图——转录图。
首先,要不断地丰富EST数据库。DbEST是目前最大的一个公共功能性序列数据库,至1996年夏天,它已收集到40万种EST序列。其中大多数序列是在默尔克(Merck)公司资助下由华盛顿大学的序列测定项目提供的。这个数目并不代表人类基因组中可表达基因的数目(60000到100000个基因克隆),因为一个全长的cDNA可能产生几个不重叠的EST片断。由于发现这些可表达的EST片段——“真正的基因”具有潜在的经济效益,许多商业公司都非常重视EST片段的克隆和序列分析。比如美国人类基因组科学公司据称已得到了超过850000个EST片段的数据库,对应于可能的6000个不同的基因,与人类基因组的全部基因数已相差不多了。现在,国际数据库中所贮存的EST的数量正以每日1000多个的速度增加着。
下一步就是将EST片段在人的基因组中定位。即将这些EST片段与某些疾病的易感位点联系起来,许多国家正在寻求合作,通过对这些EST片段进行染色体定位,绘制一个真正的“转录图谱”。1994年,约有1000个EST片段得到定位,1995年增至10000个,1996年则达到20000个。这样,一旦确定了与某个疾病有关联的位点,转录图就可以告诉你在这个区域有哪些基因。是否所有的基因都能以EST片段的形式在染色体上得以定位呢?不是的。我们前面就已经知道EST片段是由mRNA经过反转录而来,不包括RNA的结构基因。此外,由于某些低水平表达的基因在构建cDNA文库时可能不包括于其中,因而EST也不能代表这些低水平表达的基因。这样,RNA的结构基因以及低水平表达的基因就不能以EST的方式被定位到转录图上。这个悬而未决的问题将随着整个基因序列的完成而得以解决。
转录图有特定的意义。首先,由于DNA的转录是有组织与时间特异性的,它来源于已知的某一生育阶段的某一组织。有人提出可以绘制一张反映在正常或受控条件中表达的数目、种类及结构、功能的信息。在将来的数据库中,我们可了解某一基因在不同时间、不同组织、不同基因、不同水平的表达;也可以了解某一特定时间,在不同时间、不同水平的表达;还可以了解一种组织中,在不同时间、不同基因、不同水平的表达。有了“正常”的转录图,就奠定了构建特定生理条件下与“异常”下cDNA图的基础,为步入21世纪的基因医学绘制了新的蓝图,即基因表达谱。
转录图还有多方面的意义:
(1)能为估计人类基因提供较为可靠的依据。参数相应的准确数目只有在所有基因都克隆、鉴定后才知道。
(2)能用来绘制“基因表”。
(3)提供了功能基因的“标记”。一个cDNA片段本身就是某一特定基因的编码序列部分,因而提供了克隆、分析功能基因的一个起点。
(4)本身就具有经济价值,如作为基因诊断或基因克隆的一种工具。
(5)这是序列分析效益最高、收获最快的方案。
(6)最重要的是,这些转录的DNA,能为DNA序列知道以后鉴定哪些部分是编码DNA提供最为可靠的信息。
正因为如此,转录图的构建,特别是这些cDNA片段的分离竞争得十分剧烈。美国的私人公司就曾提出共达40万个cDNA片段的专利申请。
3.遗传图:孟德尔的新生
DNA都克隆出来了,还讲那“看不见,摸不着”,如幽灵般的“显性”、“隐性”的“基本因子”?
“我国要补经典遗传学,即孟德尔遗传学这一课。”这是中国遗传学之父谈家桢先生讲的,因为我们有两代人不太清楚什么是基因。
科学发展有其必然性与阶段性,科学发展的过程是不能逾越的,就像人类不可能一步进入“共产主义”一样。不能设想,不懂得任何经典遗传学,就用对DNA分子的拨弄搞出“工程”来。整个“人类基因组计划”就是自然科学史上的“补课”计划。基因已经说了多年,但还是不知道人类共有多少基因,都是些什么基因。
遗传学的“灵魂”是“遗传分析”,紧紧抓住“基因型—表现型”之间的“遗传”联系,而这之间漫长复杂的生理过程留给了别的学科。
遗传图,又叫连锁图。它是以在某个遗传位点上具有多个等位基因的遗传标记作为“路标”,以遗传学上的距离即两个遗传位点之间进行交换,重组的百分率,CM作为“图距”,反映基因遗传效应的基因组图。建立人类遗传图的关键是要有足够的高度多态的遗传标记。我们知道,ABO就是决定人类血型的遗传标记,其他还有HLA位点等。但是,目前所知的具多态性的性状不多,等位基因的数目有限,信息量不足。而人类基因组很大,不能像做细菌的遗传图那样,仅仅根据有限的遗传标记就可完成。这样,就限制了人类基因组的遗传分析工作。所幸DNA重组技术的建立提供了新一代的遗传标记。
第一代的DNA标记是RFLP(限制性片段长度多态性)分析。这些RFLP片断可被某些限制性内切酶特异识别并切割。DNA序列的改变甚至是一个碱基的改变,将会改变限制性内切酶酶切片段的长度变化,并可通过一种称为凝胶电泳的方法来方便地显示这种长度的“多态性”。RFLP在整个基因组中都存在,根据对RFLP片段的多态性分析,可对某些疾病进行诊断并将与疾病有关的基因进行定位。但RFLP提供的信息量有限,在检测RFLP片段时需用到放射性同位素,不太安全。
第二代遗传标记是被称为简单串联重复片段的STR。在检测RFLP的过程中,人们发现有一种类型是由于DNA重复序列造成的。这些DNA重复序列在人类基因组中有很多拷贝,它们可以头对头或头对尾地串联成一簇,分布于基因组的各个位点。在某一位点上,不同数量的重复序列(VNTR)也可以提供不同的长度片断。有的VNTR重复单位长度为6~12个碱基,称为小卫星;有的VNTR重复单位为2~6个碱基,称为微卫星或简短串联重复(STR)。STR具有高度多态性,同一遗传位点数目变化很大,在群体中也可形成多达几十种的等位基因,这是其他遗传标记所不能比拟的;此外,还可以利用PCR的DNA体外扩增技术,实现操作机器自动化。1991年,遗传标记可以用自动化操作。1994年美国麻省理工学院的科学家已经可对基因组一天进行15万个分析,大大提高了遗传图的构建速度。至1996年初,所建立的遗传图已含有6000多个以STP为主体的遗传标记,平均分辨率即两个遗传标记间的平均距离为0.7分摩,这个距离大致对应于0.7Mb的物理距离。遗传学界一直认为基因繁多、世代漫长、个体有限、婚姻无序,人类很难进行自身遗传制图,所以人类的遗传图也一直落后于其他物种的遗传图。今天,人类终于也有了自己的一张较为详尽的遗传图。想一想,有6000多个遗传标记作为路标,把基因组分成6000多个区域,只要以连锁分析的方法,找到某一表现型的基因与其中一种遗传标记邻近(即紧密连锁)的证据,把可以把这一基因图定位于这一标记所界定的区域内。这样,如果想确定与某种已知疾病有关的基因,即可根据决定疾病性状的位点与选定的遗传标记间的遗传距离,来确定与疾病相关的基因在基因组中的位置。
4.序列图:重中之重
“人类基因组计划”重中之重,最实质的内容,就是人类基因组的DNA序列图。“人类基因组计划”起始,急论焦点、主要分歧、竞争主战场、道义交锋的实质,都是围绕着序列图展开的。
前面说的遗传图、物理图与转录图,之所以称为“序列图前计划”,就是因为这些图的目的,都为最终绘制DNA序列图作准备。只有在DNA序列图完成的基础上,才能用人群内序列的差异,作为密度最高的“遗传标记”来完善遗传图。
正如美国与丹麦的遗传学家所说的:怎么会有不参与DNA序列图的国家人类基因组中心呢?没有基因组DNA测序的能力,一个国家的“人类基因组计划”是不完整的。日本的科学家最近还特别“抱怨”:没有DNA序列图,其他任务是完成不好的。
DNA序列图的绘制是科学家变竞争为合作的典范。由于人类基因组DNA序列图的绘制任务太艰难,因而成为一个国家国力的综合反映。而它显示的意义,又使它的完成越早越好。因此,只有全球的参与、精诚合作,才能使DNA序列图的绘制又快又好。
人类基因组DNA序列图的绘制工作,可以做这样的比喻:假说人们只穿4种颜色的衣服:红、黄、白、黑,“人类基因组计划”就相当于把世界上30亿人所穿的衣服都搞清楚,而且注明位置顺序,如所在的国家、城市、街道、楼房、房间。人类基因组DNA序列图的绘制,是在上述3张图的基础上,采用了“分而胜之”的“克隆到克隆”的策略。科学家用已在代表人类基因组中不同区域定好位置的标记,即遗传图的“遗传标记”和物理图的“物理标记”,来找到对应的人类基因组“DNA大片段的克隆”。这些克隆都已知道是相互重叠的。再分别用机器测定每一个克隆的DNA顺序,再把它们按照相互重叠的“相邻片段群”装搭起来。
为了测定这些大片DNA克隆的序列,要将这些DNA克隆按遗传图与物理图的标记,确定在基因组中,切成1~2000核苷酸长的小片段,再“装”到一种质粒“载体”上,送进细菌中克隆,大规模地培养细菌,再从细菌中提取这些“克隆”的DNA。在我国的“北京中心”,工作人员每天要制备5000~1万个克隆的DNA作为测序“模板”。这些DNA要质量上很纯,数量上准确,还不能相互混杂。
模板制备好了,就要进行测序。第一步是“测序反应”。现在使用的方法是“酶终止法”。简单地说,是以要测的DNA为模板,重新合成一条新链,分别用不同颜色的荧光物质标记上。这样,如果一段序列的一个位点上是A,就将代表A的荧光物质标记在A的后面,由此类推。这样就形成了长度相差一个核苷酸的新DNA链,而结尾一位则可用荧光的颜色来决定是:或A、或T、或C、或G。
测序反应做好后,第二步是上“自动测序仪”分析。现在的机器主要有两类,一类是“凝胶电泳”,另一类为“毛细管电泳”,它们都能将长度仅相差一个碱基的DNA片段一一分开,由于不同的片段尾巴的核苷酸已标有不同颜色的荧光染料,可以很直观地读出A、T、C、G的序列。
这些“序列”通过电脑加工、检查质量,再用一些特殊的电脑程序,将相互重叠的序列装搭起来。要确定每一位置上的核苷酸,至少要测定5~10次。如果中间有“空洞”,还要将这些“空洞”用各种技术“补”起来,最后形成一个大片段克隆的完整序列。这些序列片段再根据“相邻片段群”的信息装搭起来,就组合成了一个染色体区域,一个染色体完整序列。
现代的基因组技术是分子生物学、遗传学、遗传工程技术、生物信息学的综合。由于整个生命科学已进入“以序列为基础的时代”,大规模基因组测序、组装与分析技术已成为生物产业最重要的“龙头”、上游技术,这是一个国家的国力、技术能力、新的科研型企业的管理能力、人的素质的最集中的表现。