生物序列的相似性分析及k词模型研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:guokm01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着科学技术的迅猛发展,同时人类基因工程计划(Human Genome Projec, HGP)也已经进行了全面实施,人们所获得的生物序列数据与日俱增,生物学的研究重点也逐步从积累数据过渡到分析解释这些数据。这其中蕴含着丰富的生物信息,能将它们管理好并从中提取尽可能多的信息是一项有意义的工作,因而很多数学家、生物学家和计算机科学家等多个领域的研究者都被吸引到生物信息这个新的交叉学科中来。而生物序列的比较是其中最重要、最基本的内容之一,因为很多其它的研究工作,像分子进化问题、蛋白质结构预测问题和基因识别问题等都是建立在上述工作的基础上。序列比对(sequence alignment)是分析生物序列的传统方法,而限于该分析方法自身存在的一些缺陷,非比对(alignment-free)方法作为其补充和改进而出现,并迅速发展成为计算分子生物学的研究热点之一。在此以DNA序列、蛋白质序列作为本文的研究对象,在图形表示和k词模型的基础上,提出了生物序列的一些新的非比对模型,并进行了相似性分析和进化树的构建。主要工作有以下几个方面:首先,在考虑到核苷酸化学结构分类的基础上,将已有的混沌游走表达(Chaos Game Representation,CGR)模型进行了改进,首次构建了DNA序列的三种CGR空间,得到了CGR-游走的数值序列,并提取了DNA序列的特征不变量。作为应用,对九个不同物种β基因外显子做了相似性分析,取得了较好的效果。我们的方法一方面可以作为DNA序列图形表示的有效补充,另一方面也可以视为CGR结果的改进。在该模型中首次将碱基的生物化学性质考虑进来,且图形表示直观,不变量易于计算,并且通过与已有的模型分析比较,我们的方法得到的结果更接近已知的生物事实,所以能够包含更丰富的生物信息。接下来,我们基于氨基酸的详细疏水-亲水(Hydrophilic-Hydrophobic,HP)模型,提出了蛋白质序列的双向量曲线(Dual Vector Curve,DV-Curve)表达方式,它是利用两个向量来表达蛋白质序列的一个氨基酸字符。通过建立数学模型,给出了DV-曲线表达和蛋白质序列之间的一一对应关系。这种图形表示不仅避免了退化性问题,而且对于长的序列也有着较好的可视化效果,并且曲线本身可以反映序列的长度。作为应用,一方面以不同物种的ND6蛋白质序列为例,利用它们的DV曲线进行了直观的图形相似性分析。另一方面,为了便于对蛋白质序列进行量化比较,构建了24维的特征向量,利用欧氏距离度量得到相似性矩阵,并构建了35条S结构蛋白的进化树。本文是首次将DV-Curve方法和详细的HP模型结合起来描述氨基酸序列,结果显示该模型对生物序列有着较好的刻画能力。在第五章中,我们提出了一种新的k词(k-word)模型来分析生物序列。由于在进化的过程中会存在碱基突变,当给出新的k词概率分布时需要去掉随机背景,最终得到了表征DNA序列的4k维的特征向量,并以48个HEV戊型肝炎病毒基因序列和26种胎盘哺乳动物线粒体的全基因组序列为例进行了分析,取得了较为满意的效果,并对字符串k的最优取值问题进行了探讨。
其他文献
目的研究护理质量持续改进对提高子宫肌瘤患者临床护理效果的影响。方法将我院46例子宫肌瘤患者分为两组,每组23例。对照组给予常规护理,观察组接受护理质量持续改进护理。比
<正> 美洲大蠊Periplaneta americana(L.)是我国室内蜚蠊的优势种,分布广、密度高,对人类的危害日益严重,为探索防制的新途径,我们对该虫的聚集信息素(Aggregation pheromone
多体系统动力学方程为3阶微分代数方程,已有的约束违约稳定法存在位移违约问题,数值仿真准确性和稳定性不足。本文将求解高阶微分代数方程的降阶理论、ε嵌入处理方式与隐式
伴随着数字化校园发展的不断深入,信息化社会为学校工作带来了一定的便利性。在这种态势下,网络安全问题就显得特别关键。可是从当前的实际情况来看,校园网络在防范安全问题
文章从当前的职业安全健康状况入手,阐述了建立职业健康安全管理体系的重要性,其可彰显出先进的管理理念,也是安全生产监管的可靠途径,更推动了企业现代管理机制的发展,进而
目的探讨减轻托拉塞米静脉注射引起疼痛的方法。方法对48例根据医嘱需静脉注射托拉塞米患者,采用自身对照法,A组采用托拉塞米原液;B组采用托拉塞米用5%葡萄糖溶液稀释后静脉
纤维素气凝胶是一种原料来源广泛、可再生的新型材料,具有密度小,孔隙率高,比表面积大等特点,在模板材料、疏水吸油、电化学等领域具有广阔应用潜力。然而,有关纤维素气凝胶
大学生安全教育是高校发展过程中的重要一环,但是目前高校安全教育还是以专题讲座、安全日主题班会等形式为主,教学效果欠佳。在高校安全教育中引入基于SPOC的翻转课堂教学,
目的观察推拿、电针、牵引等物理疗法配合中药热敷治疗老年性腰椎间盘突出症的临床疗效。方法对2014年1月-2015年11月在本院针灸推拿科住院治疗,年龄符合纳入标准,按照中医诊
目的探究使用中成药治疗心脑血管疾病的效果。方法选择2017年6月至2019年5月的132例心脑血管疾病患者作为本次的观察对象,随机平均分为观察组和对照组,66例对照组患者采取常