DNA序列比较的K-词非频率模型研究及应用

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:landywww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以惊人的速度急剧增长的生物分子序列数据急需高效的计算方法来进行分析处理。由于算法本身的复杂度较高,在包含生物序列较多的大型数据集面前,传统的基于比对的序列比较方法显得无能为力。打分矩阵选择的困惑是比对方法在实际应用中的另一难题。为了克服以上两方面的问题,许多非比对方法纷纷涌现,不同程度地解决了序列比较问题。在所有的非比对方法中,基于k-词频率的方法无疑是讨论最多的。基于k-词频率的大多数非比对方法倾向于把每个k-词看成孤立的个体,忽略了它们之间的联系和整体性质。此外,基于k-词频率的非比对方法下的距离空间与生物序列的数量和差异联系紧密。在这样的距离空间中,很难判定最小的非零距离是多少。因此,给定一个具体的相似性距离,我们无法判断它对应的两条序列的相似性程度。为了解决以上两个问题,在本文第二章,我们提出了一个新的基于k-词数量的可用于序列比较的相似性距离。对于给定的长度k,我们研究了同一序列中的所有4k个k-词相互之间的数量关系,提出了一个由所有k-词的次序号构成的向量作为一条序列的特征向量。以这个特征向量为基础的相似性距离不受序列长度和差异的影响,并且揭示了DNA序列中k-词的整体性质。我们对这个新距离进行了相似性序列查找实验和进化树构建实验。实验表明,我们的方法得到了非常理想的结果,可以用于生物序列比较。由于序列长度的差别,基于k-词的序列比较方法和图形表示方法用完全不同的方式揭示了序列中的生物信息。然而,生物序列的信息存储方式随着序列长度的变化而改变的可能性很小。一个适用于不同长度序列的序列比较方法距离揭示生物序列的信息存储方式要近得多。在本文第三章,我们建立了一个适用于多种长度序列的序列比较方法。基于双射条件下,我们从生物序列中抽取了新的子序列。对每个子序列,我们用一元线性回归模型进行了分析。然后,基于回归模型的变量,我们定义了序列的相似性距离。通过与其他的非比对方法进行比较,我们的距离在四个不同长度生物序列的数据集中的应用结果都很理想。尽管人们提出了许多用于序列比较的基于k-词的相似性距离,绝大多数距离侧重k-词的数量而忽略了k-词的位胃信息。事实上,k-词的位置信息包含了重要的生物信息,如基因的重排,反转,置换,迁移等。在本文第四章,根据k-词的位置信息间的相互联系,我们提出了一个新的序列相似性距离。我们将这个距离应用到3组真实的生物序列中,都得到了符合生物学意义的结果。最后,对于每章提出的相似性距离,我们都深入分析了k-词的最优长度取值问题,并且给出了可操作的k-词最优长度判别方法。我们相信,k-词最优长度判别方法使我们的方法在实践操作中减少人为干预,.提高效率。每一个方法本身,都加深了我们对生物序列的认识。
其他文献
本文笔者主要介绍了牛津国际AQA化学的考试评估方式,评估内容,评估目标,各单元占比,评分等级,考试时间等。
随着社会经济的发展,人们对初中教育的认识发生了很大的转变,对教学提出了更高要求。初中教育是承上启下的一个转折点,在学生的整个学习过程中具有重要意义。鉴于此,初中教师
本文介绍了单体支柱防倒顶盖的基本结构及其工业怀试验情况,提出了监测与评价倾斜煤层工作面单体支柱支护质量的三项新指标。试验观测表明,在倾斜煤层工作面使用装有防倒顶盖的
1935年(三十一岁) 1月23日,历时八个月完成之习作《D小调小提琴奏鸣曲》,经杜卡斯教授推荐在巴黎音乐院音乐厅首次演奏,并由巴黎电台转播。云:“保尔·杜卡斯先生相当满
目的:观察和总结弹性髓内钉治疗儿童桡骨颈骨折的临床效果。方法:对2007年1月—2015年1月本院收治的19例儿童桡骨颈Ⅲ、Ⅳ型骨折行弹性髓内钉配合手法撬拨复位治疗,并对治疗结
托尼·莫里森和汤亭亭都是当代美国最著名的族裔女性作家。虽然她们的历史背景和文化背景各不相同,但却都遭受到来自美国主流文化与父权社会的排斥,成为了“双重局外人”。因
目的:分析高龄产妇分娩中应用助产护理干预的效果。方法:选择2015年9月—2016年9月于我院分娩的124例高龄产妇临床资料,按护理模式不同分为两组,各62例,对照组行常规护理,观
音乐伴奏不仅能激发运动员训练和比赛的激情,提高运动员的训练效果和比赛的成绩,还能使运动员对动作的性质、力度和肌肉的紧张程度有一个准确的把握,从而增强动作的协调性;同
3月5日上午9时,第十二届全国人民代表大会五次会议开幕,国务院总理李克强作2017年《政府工作报告》,《报告》中屡次提及汽车产业相关内容。具体有哪些内容与汽车产业具有相关性呢?《汽车观察》为您精心筛选。  【关键词1】GDP增长6.5%  报告内容:“……今年发展的主要预期目标是国内生产总值增长6.5%左右,在实际工作中争取更好结果……”  解读:2016年国内生产总值为74.4万亿元,增长6.7
氨基有机硅柔软剂是目前使用最多的一类柔软剂。本课题通过硬挺度测试仪、折皱回复角测试仪和KES风格仪测试柔软整理后棉府绸、棉帆布和麻织物的软度、滑度、弹性和蓬松性,找