系统发育树主要是它的拓扑结构和分支长度,分支长度表示突变的时间,拓扑表示树的分支模式。系统进化树分有根树和无根树两种形式,有根树反映了树上物种或基因的时间顺序,从数学的观点看,有根树是一颗树叶有标签的有根二叉树,根表示祖先序列;而无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。用于构建系统进化树的数据有两种类型:一是特征数据,它提供了基因、个体、群体或物种的信息;二是距离数据或相似性数据,它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。系统进化树的构建质量依赖于距离估算的准确性。
系统发育树构建方法通常有四种类型:距离法、简约法(parsimony method)、最大似然法(maximum likelihood,ML)和贝叶斯估计方法。距离法有法(Unweighted Pair Group Methodwith Arithmeticmean,UPGMA)、最小进化法(Minimum Evolution,ME)和邻接法(Neighbor Joining,NJ)等。简约法是没有不必要的步骤,最好的树是祖先与子代之间变异数目最小的。最大似然法是由样本观测值估计总体参数的一种常用方法,选择最高概率的树。贝叶斯估计方法比最大似然法能表示更多的可信进化模型,替代率的变异可以在各个点建模,贝叶斯估计方法有一个非常宽的先验分布,后验概率分布用Gibbs样本和MCMC(Monte Carlo Markov Chains)方法计算。构建分子进化树软件主要有MEGA、PAUP、PHYLIP、TreeView、ClusterX、GeneDoc、BioEdit等。MEGA是图形化软件,使用非常方便,可用于序列比对、进化树的推断、估计分子进化速度、验证进化假说等,还可以通过网络(NCBI)进行序列的比对和数据的搜索,可免费下载。
PHYLIP是命令行格式软件,使用较烦琐,可以分析DNA与蛋白序列、限制位点、绘制进化树等。TreeView是用来生成与打印进化树的软件。ClusterX是对大量微阵列数据组进行各种聚类分析与其他各种处理的软件。GeneDoc帮助研究人员进行多序列比对,并可以以各种方式标记序列,生成发表质量的输出报告。GeneDoc能进行相关性分析,使研究人员对研究的序列了解更多。BioEdit是一个序列编辑器与分析工具软件,功能强大,使用方便,可以进行序列编辑、外挂分析程序、进行RNA分析、寻找特征序列,支持超过20000个序列的多序列文件,具有基本序列处理功能,可进行质粒图绘制等。
构建序列进化树的主要步骤包括比对、建立替代模型、建立进化树和进化树评估,具体步骤如下。
(1)建立数据模型(比对),包括选择合适的比对程序,然后从比对结果中提取系统发育的数据集。
(2)决定替代模型,基于距离法和最大似然法都是用参数模型描述序列间突变的过程,此过程称为替代模型。
(3)建树方法,即上述的距离法、简约法、最大似然法和贝叶斯估计方法。
(4)进化树搜索,单一的进化树的数量会随着分类群数量的增长而呈指数增长,从而变为一个天文数字。由于计算能力的限制,现在一般只允许对很小一部分可能的进化树进行搜索。具体的数目主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。
(5)确定树根,上述的建树方法所产生的都是无根树(进化树没有进化的极性)。
为了评估进化假说,通常必须确定进化树的树根。确定系统发育进化树的树根并不是简单问题。一种确定树根的好方法就是分析时加入一个复制的基因。
(6)评估进化树和数据,现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验);对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树进行评估。
具体应用上述步骤举例:比较生物之间同一蛋白质的组成,可以估计其亲缘关系和进化程度,从而发现生物进化中遗传物质变化情况。有些蛋白质在各类生物进化中执行同一任务,例如细胞色素C是一种呼吸色素,在氧化代谢中担任转移电子的作用。分析比较不同物种细胞色素C的氨基酸组成,就可以估测它们之间的亲缘程度和各种生物相互分化的大致时间。利用物种之间的最小突变距离可以构建系统发育树。
思考题
1.请举一个早期光学或者电磁学研究过程中使用归纳法的历史案例,并分析使用归纳法的问题。
2.请说明在历史学研究的过程中是否适用归纳法,举例说明。
3.举例说明光的弹性波动说如何使用了类比法来提出假说。
4.哲学和社会科学中是否存在假说?又如何证实?
5.宇宙爆炸说是一种假说,是否可以用归纳法加以证实?
6.在半导体光放大器SOA中,存在一种自偏转旋转效应,即随着注入光功率的增大,它的输出偏振态会在邦加球上旋转,请用类比法判断形成这种偏振态旋转的机理可能是什么。分析越深刻越好。
7.接上题:如果提出了一种导致SOA偏振旋转的机理(假设),在不破坏SOA器件本身的前提下,通过如何设计实验来证实你的假设?
8.请举一个在现代光学发展过程中使用演绎法的历史案例,分析该演绎法应用的背景、过程、推理方法的特点,以及所获得的启示。
9.请举例说明演绎法和归纳法的区别,分析各自的适用范围、形式特点、逻辑推理方法及作用,讨论演绎法和归纳法的相互关系。
10.请描述光的波粒二象性的历史由来,列举其中所应用的演绎方法,分析它们演绎推理的特点,并讨论如何正确地提出假说。
11.提出一个科学或技术案例,在解决该问题的过程中用到计算机数值计算方法。
讨论计算机数值计算方法在该问题的求解过程中可能起的作用。
12.提出一个光学领域的科学或技术案例,在解决该问题的过程中用到计算机数值计算方法。讨论计算机数值计算方法在该问题的求解过程中可能起的作用(如果能提供自己编的程序,回答一个光学问题,这样的案例更好)。
13.如何理解科研思路和实验技术之间的关系?
14.如何理解发现的科学和假说-演绎推动的科学?
15.为什么说科学是一项具有自我修正机制的社会活动?
16.请举例说明什么是假说-演绎法。
17.请用生物学的具体研究实例说明比较方法和类比方法的区别。
18.“生物信息学的研究不需要做实验”,你同意这一说法吗?为什么?
19.你发现身边有哪些关于生命的疑问?请用假说-演绎法思考如何解决你的问题。
20.除了本书所列的方法外,假说-演绎法在生物学研究中还用到哪些方法?请举例说明。