论文部分内容阅读
生物分子数据的比较是生物信息学最基本最重要的工具之一。通过序列比较,我们可以从大量的序列数据中获取生物序列中的功能、结构和进化信息。生物信息学的许多其它领域,如数据库搜索,系统树构建,蛋白质结构和功能的预测,序列片段的拼接等都需要首先确定生物序列间的距离度量。目前广泛使用的序列比较方法是比对,然而该方法存在着计算复杂度高,对序列进化模型的假设较为苛刻等缺陷。因此,发展有效的不依赖于比对的序列比较方法,并探讨其在生物信息学其它领域中的应用,特别是基于全基因组的系统发育分析,是一个非常有意义的课题。本文就两类常用的“非比对”序列比较方法进行了探讨。论文的主要内容安排如下:第二章给出了两种基于序列中字符串出现频率的序列比较方法。第一种方法是对经典相对熵方法的修正,该方法可以避免相对熵在确定两个字频率向量距离时,由于字符类型缺失而导致的退化现象。第二种方法在字出现次数服从Poisson分布的假设下,我们定义了字的表达水平,用字表达水平的差异来刻画两条序列之间的距离。通过构建包含SARS-CoV在内的25个病毒全基因组的系统发生树,上述方法的有效性得以验证。第三章研究了基于符号序列复杂度的距离度量。该距离度量利用两条序列条件压缩的思想,对序列的进化模型假设较少,因此一些进化操作,如基因组重排等,对此度量影响较小。作为其应用,我们将其与k近邻算法结合,预测了蛋白质的亚细胞位点。另外,对于蛋白质结构的比较,我们提出了一种“符号化指派”的方法,可将蛋白质结构的比较转换为符号序列的比较。同样利用此度量,我们构建了24个蛋白质结构的相似性树。特征序列是DNA序列的一种粗粒化描述,对特征序列的研究可以从不同的角度反映初始DNA序列中所含的生物信息。在本文的最后一章,通过构建3个常用数据集的种系发生树,我们对三种特征序列所含进化信息进行了探讨。