论文部分内容阅读
在人类基因组计划的推动下以及现代基因组测序技术的发展,有关核酸、蛋白质序列数据呈指数式增长。面临海量的生物数据,如何对其进行科学有效地管理、分析、存储、解释为生物科学、计算机科学及数学学科开辟了新的研究方向。一门新兴的充满活力的交叉学科一计算生物学(Computational Biology)应运而生。计算生物学具体说就是从核酸或蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物序列分析是计算生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,随着“后基因组”时代的到来,基于比对的序列分析方法由于序列数据量的巨大增加使得计算非常困难,因此产生了一些非比对的生物序列分析方法。基于非比对的生物序列分析方法作为基于比对方法的补充和发展,已逐渐成为计算生物学研究中的一个新的热点问题。本文以该领域中的若干概率模型为研究对象,主要成果有:第二章在生物序列的马尔可夫链模型下,提出了一种新的距离度量—加权相对熵。由于马尔可夫链模型中的一切性质和特征都可以由其转移概率矩阵和初始分布得出,因此基于马尔可夫链模型的转移概率矩阵和初始分布的加权相对熵可以尽可能多地蕴含生物序列的信息,而且也大大降低了生物序列比较中的时间复杂度。为了检验加权相对熵的有效性,将加权相对熵应用到序列的相似性搜索中,结果表明加权相对熵可以很有效地描述相近序列的相似性及相异序列的差异性。另外也将加权相对熵应用到进化分析中,进化分析的结果也显示加权相对熵的有效性。第三章在DNA序列相同碱基间隔序列的几何分布的基础上,提出了DNA序列的条件多项式分布模型。首先通过间隔序列几何分布的特点,构造出固定间隔中的条件多项式分布模型,再计算条件多项式分布模型中某个具体模式在DNA序列与随机序列之间的偏差,利用此偏差提出一种新的基因签名方法—-k阶多项式成份向量(κ-MCV).在k阶多项式成份向量基础上,提出了条件多项式完全成份向量,最后把条件多项式完全成份向量用于进化分析,结果显示条件多项式完全成份向量可以有效的描述基因组序列。第四章在蛋白质序列间公共子串长度的调和分布模型基础上,提出了一个新的距离用于构建进化树。直观上,两条生物序列共有的片断越多,共有的片断越长,两序列的相似度就越高。蛋白质序列间公共子串长度的调和分布模型就是基于所有的公共子串的长度构建的。为了衡量公共子串长度的调和分布模型提取蛋白质序列蕴含生物信息的能力,把基于公共子串长度的调和分布模型的调和测度应用到转铁蛋白的进化分析中,实验表明公共子串长度的调和分布模型能更有效地提高模型抽取信息的能力。