生物序列分析中若干概率模型研究及应用

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:yanwensen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类基因组计划的推动下以及现代基因组测序技术的发展,有关核酸、蛋白质序列数据呈指数式增长。面临海量的生物数据,如何对其进行科学有效地管理、分析、存储、解释为生物科学、计算机科学及数学学科开辟了新的研究方向。一门新兴的充满活力的交叉学科一计算生物学(Computational Biology)应运而生。计算生物学具体说就是从核酸或蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物序列分析是计算生物学研究的核心内容,传统的分析方法主要是以序列比对方法为主,随着“后基因组”时代的到来,基于比对的序列分析方法由于序列数据量的巨大增加使得计算非常困难,因此产生了一些非比对的生物序列分析方法。基于非比对的生物序列分析方法作为基于比对方法的补充和发展,已逐渐成为计算生物学研究中的一个新的热点问题。本文以该领域中的若干概率模型为研究对象,主要成果有:第二章在生物序列的马尔可夫链模型下,提出了一种新的距离度量—加权相对熵。由于马尔可夫链模型中的一切性质和特征都可以由其转移概率矩阵和初始分布得出,因此基于马尔可夫链模型的转移概率矩阵和初始分布的加权相对熵可以尽可能多地蕴含生物序列的信息,而且也大大降低了生物序列比较中的时间复杂度。为了检验加权相对熵的有效性,将加权相对熵应用到序列的相似性搜索中,结果表明加权相对熵可以很有效地描述相近序列的相似性及相异序列的差异性。另外也将加权相对熵应用到进化分析中,进化分析的结果也显示加权相对熵的有效性。第三章在DNA序列相同碱基间隔序列的几何分布的基础上,提出了DNA序列的条件多项式分布模型。首先通过间隔序列几何分布的特点,构造出固定间隔中的条件多项式分布模型,再计算条件多项式分布模型中某个具体模式在DNA序列与随机序列之间的偏差,利用此偏差提出一种新的基因签名方法—-k阶多项式成份向量(κ-MCV).在k阶多项式成份向量基础上,提出了条件多项式完全成份向量,最后把条件多项式完全成份向量用于进化分析,结果显示条件多项式完全成份向量可以有效的描述基因组序列。第四章在蛋白质序列间公共子串长度的调和分布模型基础上,提出了一个新的距离用于构建进化树。直观上,两条生物序列共有的片断越多,共有的片断越长,两序列的相似度就越高。蛋白质序列间公共子串长度的调和分布模型就是基于所有的公共子串的长度构建的。为了衡量公共子串长度的调和分布模型提取蛋白质序列蕴含生物信息的能力,把基于公共子串长度的调和分布模型的调和测度应用到转铁蛋白的进化分析中,实验表明公共子串长度的调和分布模型能更有效地提高模型抽取信息的能力。
其他文献
目的:卵巢癌是女性生殖系统常见的恶性肿瘤之一。在卵巢恶性肿瘤中约90%左右是卵巢上皮性癌。由于生长方式及发生部位的关系,卵巢上皮性癌早期不易诊断,容易发生转移和广泛种
文章首先简要介绍了HACCP体系的应用情况和其在自来水生产、输送过程中应用的重要性,接着概括了其在给水厂净水生产和管网系统输送方面涉及的流程环节、危害分析、关键控制点
目的:识别儿童心电图功能性改变,避免误诊“病毒性心肌炎”。方法 回顾性分析23例误诊为心肌炎的心电图。结果23例心电图包括ST—T改变及心得安试验阳性17例,VIM型与右束支阻滞
高中化学实验在高中课程中占有重要的地位,它能够培养学生的科学态度和探究精神,因此在教学过程中要深入实施化学实验校本课程,进而提升高中化学课程的教学质量.«普通高
新生儿贫血是新生儿常见并发症之一。黄英等报道121例新生儿贫血中失血性贫血50例(41.32%);溶血性贫血38例(31.40%);感染性贫血28例(23.14%);原因不明5例,占4.13%。结果显示,新生儿贫血病因以失
当前人们物质生活水平不断提升,更加注重食品药品的质量与安全,对检验实验室提出更高要求。管理评审作为质量管理体系中的重要内容,有助于掌握真实数据信息、输出年度计划与