论文部分内容阅读
本研究利用Seq-Gen软件和PHYLIP软件,针对核苷酸序列,用模拟试验对目前常用构建系统树的三类方法:距离法、最大简约法和极大似然法的重构能力进行了比较,并探讨了不同的进化模型,不同的转换/颠换比,各位点不同的进化速率等对各方法重构能力的影响。
模拟试验一:以两种树状结构为模型树,以K模型产生300bp、500bp和1000bp三种不同长度的核苷酸模拟数据,利用UPGMA、NJ、FM、ME四种距离法(分别用JC模型和K模型估计距离)和最大简约法、极大似然法构建系统树。同时比较了两种进化模型、9种转换/颠换比对结果的影响。通过计算重构树的拓扑结构差异,发现:K模型优于JC模型;序列越长重构效果越好;各方法的重构能力受真实拓扑结构的影响;转换/颠换比较大时将降低各方法的重构能力。
模拟试验二:在模拟试验一的基础上,假设各位点的进化速率不同,且服从形状参数a为1.0的Γ分布,结果表明:各位点进化速率不同时各方法的重构能力与进化速率相同时相比均明显下降。
模拟试验三:在前两个模拟试验的基础上,假设各位点的进化速率不同,服从形状参数分别为0.5、1.0、2.0的Γ分布,为进一步观察各方法重构能力随Γ分布形状参数a的变化趋势,又增加了转换/颠换比为1,a=4.0,8.0,16.0,1000.0四种组合。结果表明:当Γ分布均数一定时,形状参数越小,各位点的进化速率变异越大,各方法的重构能力越差,随着形状参数的增大,重构能力逐步提高,并且逐步接近各位点进化速率相同时(Γ分布形状参数为∞)的结果。
作为应用,本研究利用网络资源收集分子数据,构建了以SARS病毒为主的35种病毒系统树,得出SARS病毒是冠状病毒的一种,且在冠状病毒中自身构成一个独立分支的结论;构建了中国16个少数民族的系统树,结果支持民族南、北两大发源的假说。两实例的研究结果均与文献报道一致,为相应研究提供了具有一定参考价值的信息,以具体实例展现了系统树的意义和应用价值。
根据本研究结果,就系统树的构建及其应用提出以下粗浅建议:
1.进化模型的选择要慎重。目前进化模型种类很多,不同的进化模型会直接影响距离法和ML法的结果。选择模型时,要结合专业知识全面考察分子数据的特征(目前主要通过序列比对等方法)。需注意,模型并非越复杂越好,复杂模型需估计的参数较多,相应的估计误差也就越大。在无法获得物种进化模型的情况下,可采用无需考虑进化模型的MP法构建系统树。
2.由于绝大多数生物进化的转换、颠换率是不同的,因此在构建系统树时考虑转换/颠换比的影响十分必要。实际工作中,估计转换/颠换比这一步骤不容忽视,选用考虑转换/颠换比的进化模型优于不考虑者。
3.序列的长度反映了信息量,序列越长,各方法的重构能力越强,这是显然的。
4.各位点进化速率不同时,加大了重构进化过程的难度。本研究ML法所采用的HMM模型,最多只能处理9种不同的进化速率,对于各位点进化速率服从连续型分布的情况,尚无很好的解决方法,还有待于进一步研究。
5.目前,运算迅速的距离法在实际工作中可作为首选的方法。建议应同时采用多种距离法构建系统树,若结果基本一致,则结论更为可靠。需强调的是:系统树只是生物进化工作者的寻求正确进化关系的一种工具,不能盲目依赖构建出的系统树,应通过广泛的研究,从专业上寻找更多的证据来最终澄清生物的进化关系。