论文部分内容阅读
系统发育分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,从而得到反映物种进化关系的进化树。进化树通常是一棵二叉树,树的叶节点,代表了某个具体序列;树的拓扑结构表示了各物种之间的亲缘关系远近;树的分支长度刻画了进化距离的大小。构建进化树的方法主要分为两大类:基于距离矩阵法和基于特征法。其中,距离矩阵法以结构简单,具有良好的理论基础等特点获得广泛应用。基于距离矩阵法是构建进化树方法中比较常用的一类方法,但是传统的基于距离矩阵法是建立在序列比对基础上的。所以本文为了解决这个问题,提出了两种新的方法,这两种都是不需序列比对,而且比较直观,计算量小,通俗易懂。两种新方法是:基于改进的模糊聚类传递闭包的距离矩阵法和基于改进的k近邻距离矩阵法。基于改进的模糊聚类传递闭包的距离矩阵法是在原始的非相似距离矩阵上通过改进,得到一个新的相似距离矩阵,这个新的相似距离矩阵是反映物种之间相似度高的矩阵,然后在新的相似距离矩阵基础上利用了模糊聚类中的传递闭包法构建进化树。基于改进的k近邻距离矩阵法是建立在k近邻法和图论的基础上提出来的。这种方法是在原始的距离矩阵基础上找出每一行的k个最相似的分类群,然后用线连接起来,如果出现回路,则删除回路中距离最大的那条边,通过构建的一个最小连通图,利用聚类的思想构建物种之间的进化树。这种算法主要是k的选择问题。如果k过小,那么该图就不是一个最小连通图,而且存在孤立的边;如果k过大,那么该图会变得复杂化,计算量会增加,相应地,时间复杂度和空间复杂度都会增加。评估构建进化树的方法可行性,通常是采用PHYLIP软件中的Neighbor.exe程序来评估的,通过做实验来验证算法的可行性。