基于HMM方法的蛋白质局部片段结构属性的预测研究

来源 :上海交通大学 | 被引量 : 4次 | 上传用户:bleachdou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的胜利完成,蛋白质的结构和功能预测已经成为当今计算生物学研究面临的最重要的挑战之一。如何由蛋白质的氨基酸序列预测蛋白质的三维结构,这个问题不仅具有重大的科学意义,而且在医学和生物工程领域都具有极大的应用价值,对揭示人类生命的奥秘将产生深远的影响。目前,已发展的预测技术大多是基于知识的数据挖掘和机器学习等方法,使用结构片段作为构建模块,再进行蛋白质片段的组装。但事实上,有限数量的构建模块具有一定的离散属性,是不能覆盖蛋白质整个结构构象空间的。在搜索蛋白质构象空间时也存在着采样瓶颈,特别是在连续的蛋白质骨架角度空间,从而导致预测精度的丢失。因此,如何对待和处理蛋白质局部结构片段,正确识别和采样这些局部片段的骨架构象,将是进一步提高蛋白质结构预测精度的关键问题。本文聚焦在蛋白质局部结构基序片段的预测,通过对其两个重要结构属性:骨架扭转角BTA和溶液可及区域RSA的建模与真值预测,成功地构造出基序片段的结构构象。再以基序片段的构象采样作为组装蛋白质三级结构的基础,形成了一个较为完整的片段识别定位与预测系统,和对结构属性预测的集成整合系统。本文通过研究蛋白质骨架扭转角对(Φ,ψ)的分布特性,提出了BTA的二变量余弦分布混合模型,和用于蛋白质结构属性预测的改进的HMM模型。在模型的应用中,设计了一个回溯动态规划采样算法,用以采样得到蛋白质基序片段的结构构象。并在此基础上,建议了一个蛋白质局部片段的识别与预测系统,用于蛋白质基序模式的识别与定位,以及识别出来的基序建模与预测。提出了一种可变长度滑动窗口扫描算法用于结构基序片段的辨识。最后,对使用的HMM模型做了进一步的改进,开发了一个集成的蛋白质局部结构属性真值预测系统,同时得到基序片段的两种结构属性RSA和BTA的真值。本文主要的研究贡献包括:1)针对蛋白质基序片段的结构特性,提出了一个用于蛋白质结构属性预测的改进的隐马尔可夫HMM模型,更好地抓住局部结构的偏好性。该模型为蛋白质的每种结构属性建立了一种状态。模型的每个隐节点代表了基序片段链中一个残基的特定位置,密切联系着四类发散节点各自一定的概率分布。解决了该改进模型的评估、解码、学习等几个主要问题,并给出了相应的算法。根据骨架扭转角BTA和溶液可及区域RSA相应的概率分布,改进的HMM模型能很好地抓住基序片段中相邻残基之间这两个结构属性的关联性和依赖性。2)针对蛋白质基序片段骨架扭转角(Φ,ψ)的偏好信息及分布特性,提出了一个二变量余弦分布混合模型,对每个残基(Φ,ψ)的角度关联性进行建模,并使用一个期望值最大化(EM)算法,得到其混合模型的参数估计。用连续的方向统计分布来描述骨架扭转角对(Φ,ψ)的概率密度函数,而不是将角度划分成多个区间状态,这种类似自然结构的表达避免了其他传统方法所采用的角度离散化。在一个连续的(Φ,ψ)空间中,用一个双面角对(Φ,ψ)的序列来描述蛋白质基序片段的骨架构象,并使用改进的HMM模型和回溯动态规划采样算法,确保了一个无偏的蛋白质空间构象采样。3)针对构建模块BBs的离散属性与蛋白质骨架构象的连续特性不一致的问题,提出了一个基于HMM模型的概率构象采样方法,将局部蛋白质氨基酸序列和其相应的二级结构信息作为模型的混合输入,在一个连续的(Φ,ψ)空间中采样片段的骨架结构构象。同时,设计了一种新的回溯动态规划采样算法应用到这个HMM模型,用以抓住蛋白质基序片段链中相邻两个残基之间结构属性的所有依赖关系。建议的方法能重复采样骨架片段的一些类似自然的结构构象,较好地解决了在连续的(Φ,ψ)空间中搜索蛋白质构象时存在的瓶颈。在模型的最优路径上,一些知名的蛋白质结构基序片段能被很好地重现。4)针对蛋白质结构预测中局部结构片段组装的流程,提出了一个蛋白质局部片段识别定位与预测系统,以遵循蛋白质结构拓扑的等级层次组织。该系统沿着蛋白质氨基酸序列搜索和定位其中的结构基序片段,并在连续的构象空间采样其相应的骨架扭转角(Φ,ψ),从而构造基序片段的结构构象,用以蛋白质三级结构的组装。框架大体上分两个部分:蛋白质基序片段的识别与定位,辨识出来的基序建模与预测。在识别过程中,设计了一种可变长度滑动窗口扫描算法用于结构基序片段的辨识。滑动窗口的长度变化从最小值7到最大值19不等,待测序列片段与82种标准模式中的每一个且长度相同的基序模式进行比对、匹配。这个系统可以作为获得更好蛋白质三级结构预测服务的基础。5)针对蛋白质多数结构属性是连续变量的特性,开发了一个集成的蛋白质局部结构属性的真值预测系统,同时预测基序片段的两种结构属性溶液可及区域RSA真值和骨架扭转角BTA的真值,以代替将结构属性分类成几个定义状态的预测。并对之前的HMM模型做了进一步的改进,使得改进模型的当前隐节点的状态转移概率矩阵即依赖于前一隐节点的状态,也依赖于前一观测组合节点。而状态序列仍然是一个隐马尔可夫链。系统能更好地根据RSA和BTA各自相应的概率分布,抓住基序片段中相邻残基之间这两个结构属性的关联性和依赖性。并对改进模型的评估、解码、参数估计等几个主要问题,重新进行了推导和应用。本文的研究为蛋白质结构属性的预测、结构构象的采样、局部基序片段的辨识与定位、片段组装精度的提高,提供了行之有效的解决方案,可以作为获得更好蛋白质三级结构预测精度的中间环节。
其他文献
为了提高电动汽车自动变速器的承载能力和传动平稳性,研究了2挡行星齿轮机构多目标优化问题。根据厂家提供的2挡行星齿轮参数,建立了数学模型。选取2挡行星齿轮体积与重合度
《尤利西斯》被誉为20世纪最伟大的作品之一。小说以再现人物意识为中心,在反映人物多层次、纷乱复杂的内心世界、瞬息万变的情绪状态等方面独领风骚。探讨由萧乾、文洁若夫
<正>计算是小学数学教学的主要内容,它贯穿小学数学教学的始终。无论是数学概念的形成、数学结论的获得,还是数学问题的解决,都依赖于计算活动的参与。抓好了计算教学,学生的
引子“奥斯维辛”,作为纳粹暴行的象征和代表,见证了人类尊严惨遭践踏的耻辱,一看到这几个字眼,即使在半个多世纪后的今天,依然会感觉背脊阵阵寒凉。这里发生过的罪恶、耻辱和野蛮
多年以来,教师专业发展这一话题受到了各路学者的热议。教师自我效能感对其专业承诺、情感状态和专业能力等都产生了积极的影响。而教师课堂管理效能感是教师自我效能感理论中一个不可或缺的组成部分,它不仅决定着教师的教学行为,还影响着学生的学习成就。如果教师对课堂管理的自信程度高,那么他们就会采用有效的教学策略以保证教学的顺利开展。但是大部分教师并不愿意花时间在提高自身的课堂管理能力上,所以一遇到问题,他们就
目的:胃肠道间质瘤(Gastrointestinal stromal tumor,GIST),作为一组独立起源于胃肠道Caial细胞的肿瘤,是消化系统中最常见的间叶组织源性肿瘤。约有60%的胃肠间质瘤患者,其
目的:探讨丁苯酞配合多巴丝胼片对帕金森病患者临床症状、治疗效果及日常生活活动能力的影响。方法:选取2016年6月-2018年5月笔者所在医院收治的帕金森病患者78例,按照治疗方
<正>蓑衣我始终以为,蓑衣是江南的一半风景,是江南田野衍生出的一种智慧,江南的蓑衣飘飘在唐诗宋词的意境中。"西塞山前白鹭飞,桃花流水鳜鱼肥。青箬笠,绿蓑衣,斜风细雨不须
<正>随着课程改革的深入实施,我们静下心来反思课堂教学,发现在热闹、自主的背后透露出了放任、随意,以及数学味的缺失,给人肤浅、浮躁的感觉,与新课程理念形似而神异。
<正>"头脑风暴法"是由美国被誉为"创造学之父"的A.奥斯本提出的,它是一种让所有参与者在愉快、畅所欲言的气氛中交换观点,并诱发集体智慧、激发学习者创意与灵感的学习方法。