论文部分内容阅读
随着人类和一些模式生物基因组计划的相继完成和全面实施,产生了大量的生物序列数据。对这些数据的保存、处理、分析和研究推动了分子生物学、数学以及计算机科学的结合,由此发展起来的计算分子生物学也逐渐成为自然科学中异常活跃的一个研究领域。计算分子生物学的研究内容非常丰富,本文在其两个重要的课题生物序列的相似性分析和种系发生树的构建方面进行了研究,主要成果有:
在序列与结构的比较分析方面:(1)给出了一种分析DNA序列相似性的方法,该方法基于两序列间的差别度量,不需要进行序列比对。为了说明差别度量的合理性,对两组数据进行了相似性分析。(2)提出了一种RNA二级结构的图形表示方法。该方法基于CGR及构成RNA的四种碱基的化学性质分类。进一步地,从图形表示中提取数值特征分析了16个RNA二级结构的相似性。(3)提出用偏序集刻画蛋白质序列,偏序关系基于氨基酸的解离常数及氨基酸在序列中出现的位置。从蛋白质序列的广义哈斯矩阵表示中提取数值特征比较了9个神经基因的蛋白质序列。(4)提出了一种分析蛋白质二级结构相似性的方法,并将其应用到一组蛋白质数据来进行蛋白质结构分类,为蛋白质结构类的划分提供了一种辅助性方法。
在进化树构建方面:(1)基于序列间的差别度量给出了两种序列间的距离度量,选取10个物种的β-globin基因序列、20个物种的线粒体基因组编码的全部13条蛋白质序列为数据,构建的系统进化树与传统的根据物种形态和其他方法得到的进化树完全一致;并且基于氨基酸的物化性质对蛋白质序列进行了重新描述,进而将其运用到基于蛋白质序列的进化分析中。(2)根据构成RNA二级结构的碱基的化学性质以及区别自由基和基对,将一个RNA二级结构编码成一条(0,1)序列。采用Lemple-Ziv压缩算法进行进化分析,构建了两组RNA二级结构的进化树。