书城教材教辅医学信息学
48552800000082

第82章 生物信息学(3)

在核酸控制下的蛋白质生物合成过程有其保守的一面,比如一种氨基酸残基可有不止一种三联体的密码。但自然界各种条件经常会有或多或少的变化,势必会影响到DNA的突变从而引起蛋白质序列中某些氨基酸被取代、丢失或插入。这样新一代的蛋白质与其母蛋白质相比既有与其相同的一面,通常称之为同源性(homology),即它们具有共同的祖先;又有不同的一面,通常称之为分化(divergence)。一般地,将与母蛋白相同的区域叫保守区,不同的区域叫可变区。

而且生物学界普遍认为保守区一般代表该类蛋白质的功能区域,也是两个蛋白质同源性的基础。所以如何寻找两个不同生物大分子的保守区是生物大分子序列分析的核心。在许多分子生物学实验研究工作中,经常会发现新的生物大分子,接下来生物学工作者所关心的是它的生物学性质包括功能、结构等是否与已经发现的生物大分子相同、相似或不同,据此推断它的结构、功能、进化等生物学性质。这就是通常所说的同源性分析,它可以说是现阶段整个生物信息学的主要基础之一。典型的例子就是癌症与细胞无节制繁殖之间的关系:人们将与癌症有关的基因同与细胞生长相关的蛋白质序列进行比较,发现二者之间有很强的相关性,据此可以推断癌症与细胞生长是有关的。因此,进行生物大分子的序列分析是一项非常有意义的工作,主要表现为:

①保守位点和活性位点分析。对一组序列进行同源性分析,在各个序列中都保守的位点就是可能的活性位点,据此设计实验,以最终确定其中的活性位点。

②在序列分析基础上建立蛋白质之间的进化关系。许多蛋白质之间的关系不是完全无关的。某个蛋白质可能是另一个的突变体,或者它们来源于一个共同的祖先,这类蛋白质称为同源蛋白质,建立它们之间的进化关系是非常必要的。

③在序列分析基础上进行蛋白质二级结构预测。现在许多蛋白质结构预测方法如PSIPRED,STRIPLEX 等先是利用多重序列分析得到位置专一化的得分矩阵(Position Specific Score Matrix,PSSM),然后再作预测。

④应用序列分析预测蛋白质三维构象(或天然构象)。在蛋白质天然构象预测的三大类方法即比较模型法(Comparative Modeling),折叠识别法(Folding Recognition)及从头预测法中,前两种均以序列分析法为基础进行预测。而且其精度较高,所得到的模型现已被用于药物设计等相关领域。

⑤应用序列分析法还可预测蛋白质的折叠模式。

总之,序列分析在生物信息学中的地位是举足轻重的。现在生物信息学之所以受到人们的重视,主要的贡献之一便是序列分析。生物大分子序列分析按分子来分有DNA、RNA和蛋白质。但一般而言,DNA 序列所获取的有用信息与蛋白质序列相比要少得多。

其主要原因是DNA 序列的非编码区分化得很快,以致很难检测到其同源性。对分化超过200万年的DNA 序列,就很难找到其同源性。相反,蛋白质则相对比较稳定,对10亿年前分化的蛋白质也能检测其同源性。因此,相比较而言,对蛋白质进行同源序列分析更具有实际意义。

序列比对法主要是基于动态规划法比较两个蛋白质序列之间的相似性。它是生物序列同源性和相似性确定的基本方法。最早提出的是Needlemen‐Wunsch 方法,尔后Smith‐Waterman 对此作了改进,建立了局部比对方法。序列比对方法可以说是整个生物信息学的基本方法。由于Smith‐Waterman 在配对序列比对方法中是一种比较常用的方法,它涉及比对方法中的一些常用的基本概念,而且现在常用的启发式比对法如FASTA及BLAST 法均建立在它的基础上,因此我们这里重点介绍Smith‐Waterman 算法及相关的基本比对概念。

(1)比对,全局比对和局部比对的基本概念

比对(alignment)有的文献中也称之为联配、对比。但从目前国内所发表的文献,以“比对”相对比较流行。在计算机科学中则称之为不精确匹配(inexact matching)。所谓比对,就是将两个序列的末端、中间和始端插入空格,使得这两个序列中第一个序列的每个字符(或空格)与第二个序列的每个字符(或空格)相匹配。

在序列比对模式中,每两个字符的比对和字符与空格的比对都有一个对应的分数(或称之为权重)。在比对中,一个字符对应于一个空格分别称之为插入(insert)和删除(delete)。显然,有插入就有删除。因此在英文文献中将它们合并在一起称之为“indel”,我们这里将它翻译为“插删”。对不同字符的插删其得分是相同的。通过比对,我们可以得到两个序列之间的比对得分。这个得分代表了这两个序列之间的生物学相似性。

全局比对(global alignment)是将在两个序列中插入空格(包括序列的首末两端)使得它们的长度完全一致,然后将两个序列中的一个放在另一个上面使得一个序列中的每个字符(包括空格)与另一个序列的字符(或空格)相匹配。全局比对的特点是将两个序列所有字符都考虑进去。

以上介绍的是几种比对的定义。虽然不同的比对算法不一,但它们都是建立在数学中的动态规划算法基础上。另一个共同点是它们都需要一个得分矩阵。接下来我们首先介绍蛋白质序列比对中常用的得分矩阵,然后将上述几种比对方式对应的动态规划算法作详细的介绍。由于这里侧重于这个方法在生物学中的应用,因此对相应的基本概念仅作简单说明,对相应的数学证明则不作介绍。我们所关心的是:在拿到两个序列后,如何用局部或全局比对方法计算出这两个序列的相似性。如果读者能将该算法应用某种计算机语言(BASIC,C,PERL 等语言)编成相应的算法程序,就比较完美了。事实上,有关比对的算法免费软件网上可以找到,如果读者仅仅是要比较两个序列,则可直接从网上下载或直接在某个相关的网页上进行比对,则能在较短时间内得到比对的结果。如果读者想改进这个方法,提高精度或速度,则对算法的计算过程要比较清楚。

(2)蛋白质序列比对中常用的得分矩阵

因为DNA 序列的分化速度比较快而相应的比对所获取的信息要少得多,所以生物序列分析中一般以蛋白质序列分析、比对占多数,因而,这里仅介绍与蛋白质有关的常用得分矩阵。

现在常用的得分矩阵主要有两类,一类是PAM(全称是Percent Accepted Mutation,我们将它译成“可接受突变百分比”),最早由Dayoff 于1968年建立,以后作了改进,形成PAM 得分矩阵系列。一个PAM(X)的矩阵构建如下:首先选一组关系非常密切的蛋白质(closely related proteins),这组蛋白质在进化上的分化总量为X,然后计算每个氨基酸残基被其他氨基酸残基所取代的频率,就得到相应的PAM(X)矩阵,PAM250是PAM 系列中最有代表性的得分矩阵。