基于序列两两比较的进化树构造方法研究

被引量 : 11次 | 上传用户:mcdonaldz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统进化分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,进而构建反映物种进化关系的进化树。构建进化树的方法主要分为三类,即距离法、简约法和似然法。本文将对距离法做一些探索性的改进研究。传统的距离法一般通过多序列比对计算距离矩阵,而多序列比对是一个NP难问题,在序列数目较多时难以获得最优比对结果。一种解决方法是采用启发式的多序列比对算法,另一种方法是通过计算某种序列之间的两两距离代替多序列比对。对于计算两两距离的方法而言,Hansan H.Out和Khalid Sayood提出了一种基于LZ复杂度的距离,能够正确地重构某些进化树。本文则试图通过利用一种满足三角不等式的归一化编辑距离来绕过多序列比对的困难,但仍然需要对序列进行两两比对分析。序列的两两比对通常采用Needle-Wunschman算法,其时间和空间复杂度均为O(mn) (m, n为比对两序列的长度),对长序列容易超过计算机的内存限制。Hirschberg算法具有线性空间复杂度,可以用来解决Needle-Wunschman算法的内存问题,但是计算时间需求要多一倍,约为O( )。本文试图在时间和空间复杂度之间进行折衷,通过引入一种新的检查点(CheckPoint)计算方法,提出了基于分块递归的序列比对算法。理论分析表明,该算法的空间需求大约在到O(5(m+n) + Ls×min( m - 1, n - 1) + C2)O (5( m + n ) + Ls×( m + n - 2) + C2)之间,时间需求介于O(1.5mn)到O (3m n )之间,但在序列相似度较高时介于O(1.5mn )到O (2 mn)之间。同源物种的线粒体全基因组序列比对实验进一步证明了新算法的正确性,表明在序列之间的归一化编辑距离小于0.25时,新算法能够比Hirschberg算法快10%以上。因此分块递归序列比对算法在诸如同源序列分析、系统进化树构造等领域具有一定的应用价值。由于直接通过序列比对得到的距离易受序列长度影响,与真实进化距离的差别较大,因此需要进行归一化处理才能减小序列长度对构建进化树的影响。本文采用的归一化编辑距离是一种取值介于[0,1]之间的度量,由于能够完全满足三角不等式,所以还可以避免某些与进化树相关的负枝长问题。最后,本文通过两组实验说明了这种归一化编辑距离能够用来成功地构建某些已经被多种方法验证过的进化树。
其他文献
本文中,作者综述了人工髋关节置换术围手术期常见并发症的中医药防治研究进展。
近年来,重庆市将次级河流综合整治工作作为一项"重过程、重民生、重实效"的系统工程来抓,次级河流整治取得明显成效。但也面临一些问题,如污水处理基础设施仍不完善,农村面源
以Petri网作为小型/中型系统网络建模和分析工具的柔性制造系统设计、调度和优化是近年来工业自动化领域的一个热点研究方向。以宝洁公司牙膏产品研发柔性自动化系统实现为背
针对环境生物修复技术的研究,介绍了中国生态环境现状,论述了在治理环境污染方面的优点,探讨了环境生物技术的进展,包括污染土壤的生物修复技术、水环境污染的生物修复、白色
蹇先艾的短篇小说创作富于地方色彩,从中可挖掘出丰富的地域文化内涵。首先,作家善于选择有家乡地方色彩的材料为小说题材,表现了家乡贵州从自然景观到社会制度再到人物个性
明朝末年至民国初期,山东地区的科举官宦家族为数众多,它们各有不同的特点,又存在很多共同的属性。本文试以具有代表性的临沂大店(旧称莒州朱陈村)庄氏家族为例,探讨始于明末
目的:分析与研究中医辨证治疗便秘80例的临床疗效。方法:资料选自2013年3月~2014年3月在本院接受治疗的80例便秘病人,将其设置为实验组,给予中医辨证治疗,再随机选取80便秘病
华南板块在海西构造阶段以板内运动为主,处于拉张伸展构造环境下,发育了一系列具有拉张或左行拉分性质的裂陷盆地,特别是在二叠纪,拉张活动剧烈(即峨眉地裂运动),并已延伸到盆地内部
从现代到后现代、从工业社会到后工业社会的更替,最显著的标志是计算机信息技术的高速发展。除了具备报刊、广播、电视等传统媒体的功能外,互联网是具有实时、互动、跨境、跨
分子系统发育分析是生物信息学中的重要研究领域,它的主要研究手段是从一组同源的DNA或蛋白质序列出发,计算各个序列之间的进化距离,从而得到反映物种进化关系的进化树。进化