另一类是BLOSUM (Blocks Substitution Matrix,我们将它译成“块替代矩阵”),它是由Henikoff S和Henikoff JG 于1992年建立。具体计算如下:先选取一组蛋白质,将它进行多重比对,然后根据比对的结果计算每个氨基酸残基被其他残基所替代的频率。在进行序列多重比对(Multiple Sequence Alignment,MSA)时,如果选残基数相等百分比大于50%的序列进行计算,则得到的矩阵称为BLOSUM50,大于62%的即为BLOSUM62。
因此BLOSUM 矩阵不止一个,通常称之为BLOSUM 系列。在BLOSUM 系列矩阵中,最为常用的,最有代表性的是BLOSUM62矩阵。
(3)蛋白质局部比对算法
顾名思义,局部比对就是要从两个序列中各自找出两个相似性最高的子序列片段。
在许多情况下,如果从整体上看,两个序列并不怎么相似或者说它们通过全局比对得到的最大相似性得分数不大,但它们中的一些局部片段是很相似的。这就要求我们只要将这部分局部的片段找出来就达到了目的,而不需要考查它们的整体相似性。这在现代生物学中是很有意义的。比如,在蛋白质序列中,有一部分序列片段主要是与它的生物学功能有关,而另一部分片段则对该蛋白质的功能影响较小。因此,对两个类似这样的蛋白质,我们没有必要考虑它们整个蛋白质的比对而确定它们的相似性,我们只需要知道它们部分片段是否相似就可以了。这样就可以更加有针对性地比较两个蛋白质序列或DNA 序列。典型的在DNA 序列中,它有代码区(外显子exons)和非代码区(内含子introns)。
一般地,代码区能最终翻译成蛋白质,代表基因的功能,因此它不易突变,其主要目的是能保证该基因(或蛋白质)功能的稳定性,而非代码区即内含子则比较容易突变,因此如果应用局部比对技术比较两个不同种类的DNA,则找到的序列最相似的那段片段就有可能是基因了。同样的,在蛋白质中,功能区与其他部分相对比较保守,因此应用局部比对技术比较两个不同来源的蛋白质,进而据此推断它们的功能。
局部比对的计算与全局比对相比,其主要不同点是:应用全局比对的计算方法进行计算时,当计算到有分数值小于或等于零时,就将此分数值强制设定为零。而当回溯时碰到某个单元可为零时,就停止回溯,显然其比对结果中的子序列不一定要从原比对序列开始,也就是说可以是两个序列中的中间某个片段。这正体现了局部比对的精神。
它的基本算法精神为:首先根据两条长度分别为m,n 的序列构成一个m×n 的矩阵A,然后将第一条序列中的每个单元(蛋白质中的氨基酸残基、核酸中的碱基)与另一条序列的每个单元依据三种可能方式延伸比较:其一是全部是序列中相邻的两个单元;其二是第一条序列是相邻单元,第二条序列取空位;其三是第一条序列对应的位置上是空位,第二条序列对应的位置上是相邻的序列单元。根据得分矩阵分别计算这三种方式的得分,取最高者为最后得分,然后一步一步按这种方式延伸下去,直至两条序列上所有的单元均比较过为止。如果最终的得分取矩阵A 最后一行与最后一列中的最大值,则为全局比对,如果在所有的矩阵元中取,则一般为局部比对。
为使读者对其有比较深的印象,我们以一个具体的例子并用图示法说明,根据初始条件(由得分矩阵获得)我们可得(A)。然后应用前面描述的迭代方式计算相应各单元比对的得分总数即(B)。最后通过回溯得到其比对结果(C)。由此可知,所得到的比对结果中的两个序列均为原序列中的片段。
这也就是前面提到的局部比对与全局比对的主要区别,也正是局部比对的意义之所在。
已有人证明:局部比对计算所需的时间和内存与全局比对基本相同。
局部比对与全局比对的另外一个不同点是在计算过程中,初始条件设置为0,在迭代过程中将小于零的得分也设置为零,因此它所得到的比对结果可以在两个待比较的序列中任何地方开始,也可以在任何地方结束。
18.3生物信息学与临床信息学的融合
根据NIH 对生物信息学所下的定义(见本章18.1.1)可以推断,临床信息学应属生物信息学的一个重要内容。但由于医学信息学及临床信息学直接涉及人类的健康与卫生,与人类的切身利益密切相关,因此它逐步独立出来成为一门单独的学科。更确切地说,生物信息学涉及的生物信息是以医学基础学科为主的生物信息如分子生物学、细胞生物学、病理学、生理学等,而临床信息学则主要涉及与临床有关学科的信息如内科学、外科学、临床诊断学等。生物信息学与临床信息学之间至少存在四方面的融合:组成的融合、数据库的融合、方法的融合及应用的融合。
1)生物信息学与临床信息学组成的融合
不论生物信息学还是临床信息学,它们的组成均为数据库及分析数据库的相应的方法。它们之间的关系均是相互支撑的。
2)生物信息学与临床信息学数据库的融合
生物信息学中的信息如蛋白质分子序列、结构等知识均属描述性知识;而临床信息学中的临床信息如患者病历、药品库存等也均属描述性知识。所以从知识的性质来说,两者是相同的,而且后者相对比较具体。在临床信息学中,还有一类相对较为抽象的信息,即医疗仪器测得的数据,这类数据与生物信息学中的数据更为相似,主要表现在这些数据的处理方法即临床信息学方法与生物信息学方法很相似,都是一些数学方法如傅里叶变换、小波变换等。所以尽管生物信息学数据库与临床信息学数据库所代表的知识内容不尽相同,但两者之间还是有许多共同点的。
3)生物信息学方法与临床信息学方法的融合
生物信息学方法与临床信息学方法在某种程度上是相同的,或者至少属同一个范畴,比如在生物信息学中数据库搜索方法与临床信息学中查阅病历的方法在很大程度上是相同的,因此,生物信息学中的一些方法,可以用到临床信息学中来,如前面提到的傅里叶变换法、小波变换法等在临床信息学仪器测定的数据分析中也大有用武之地。反过来,在医学信息学的图像存储与传输中所用的数学方法与相关原理在生物信息学也广泛地应用。
4)生物信息学与临床信息学应用的融合
生物信息学的一个主要应用是为实验科学工作者提供必要的有益的生物学信息和指导意见。比如,在药物的虚拟筛选中,筛选出来的先导化合物及其相关的信息可以为药学实验工作者提供许多有益的指导性或建设性的意见。临床信息学的一个主要的应用是为临床医生对疾病的诊断及治疗提供不可或缺的手段。比如,当病人描述完其疾病的一些基本特征后,临床医生可以根据临床信息学中的相关软件得到相应的处方信息及治疗信息,而这些信息相对来说都是比较经典的(很明显,所用的处方首先采用的是“名医”的处方及治疗手段),对临床医生尤其是刚上临床岗位的实习医生具有很好的参考价值,有时会起到决定性的作用。同样的,对生物信息学而言,一些相关的软件也可以为实验科学工作者提供建设性的指导意见,比如,蛋白质天然构象预测软件就可以对未知功能与结构的蛋白质提供可能的天然构象,为实验工作者进一步研究提供了一定的指导方针。尤其是配对序列比对是现代医学包括法医学的必要手段。我们通常所说的胎儿先天性疾病的基因诊断、亲子鉴定、法医基因鉴定、病原微生物鉴定(如H1N1流感、SARS 病毒)等一般均需要两个过程:第一获取相应的基因或蛋白质序列;第二,确定它们的来源或者与什么样的基因具有同源性。它们的方法学基础就是生物信息学中最基本的方法即配对序列比对法,从这一点来说,生物信息学是临床信息学、医学(包括法医学)的重要基础学科。
(1)什么是生物信息学?
(2)PDB 数据库的网站名是什么?如何从该网上获取你所需要的某一个蛋白质结构?
(3)列举10到20个相关的分子疾病数据库。
(4)什么是比对、全局比对及局部比对?
(5)举例说明“插删”这一重要的生物信息学概念。
(6)常用生物信息学算法有哪几种?
(方慧生 陈凯先)