基于结构域聚类的蛋白质结构预测研究

来源 :中国科学院计算技术研究所 | 被引量 : 2次 | 上传用户:yilvQINGFENG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构决定蛋白质功能。随着各种基因组计划的完成,产生了海量的蛋白质序列数据,通过传统试验的方法已经无法对这些数据进行及时地处理。因此,利用计算方法进行蛋白质三维结构预测已成为当前生物信息学的研究热点之一。   在蛋白质结构预测算法中同源建模(Homology Modeling)被认为是当前最成功的预测算法。随着HPI(Human Proteomics Initiative)项目的开展,在未来5到10年内,越来越多的蛋白结构将会被确定,同源建模技术将具有更广泛的应用前景。然而,同源建模法存在两方面的严重缺陷:结构模板数量不足和目标一模板比对不够准确。   结构域在蛋白质进化过程中其结构功能相对独立。在InterPro数据库中多于2/3的结构域能在PDB中找到其相应结构,而且85%以上的蛋白质序列包含至少一个或多个结构域。因此以结构域聚类为模板可以预测出更多的蛋白质结构。基于这一思想,并针对同源建模中的两个缺陷问题,本文主要进行了如下几方面的研究:   1)提出基于三维结构的目标-模板比对算法tfi-profile:结构比对是目前最准确的比对方法,其常作为其它比对方法的基准,三维结构信息的加入往往能提高比对的准确度和灵敏度,结构域聚类数据库含有大量的结构信息,本论文从中抽取了基于三维结构的profile,并基于此构造sequence-profile比对算法,实验证明,算法可以提高比对的灵敏度和最终预测结果的准确度。   2)提出基于混合信息的目标-模板比对算法hybrid:虽然结构信息是非常重要的一类信息,但是由于结构比对在loop区域通常是没有意义的,所以纯粹基于结构信息的profile会造成一些信息丢失。同时,从理论上讲,在比对中加入的信息越多,比对就越准确,基于以上考虑,本论文中构造了基于一维、二维、三维混合信息的profile-profile比对算法hybrid,并对其在内外部测试集上进行了大量测试,结果表明,hybrid比对算法尤其在低相似度测试集上灵敏度和准确度比其他方法都有明显提高。   3)结构域合并方法:因为基于结构域聚类进行蛋白质结构预测方法的模板是结构域,所以其引出了一个新的问题,即结构域合并问题。这是一个很有难度的问题,对该问题,本论文采取了首先利用hybrid算法进行结构域映射分解,然后对结构域进行结构预测,最后进行合并优化的策略。并且选择了具有代表性的一些序列进行测试,结果表明在目标没有精确模板的情况下,基于上述结构域合并方案得到的预测结果明显优于直接同源建模的结果。   4)原型系统的实现:论文工作还包括一个原型系统的实现,即为用户提供一个交互平台,对用户通过交互平台提交的蛋白质序列在后台计算预测其结构并将最终结果返回给用户。
其他文献
XML自1998年由W3C提出之后,已经成为因特网上数据表示和数据交换的标准,受到越来越多的关注。各行各业都采用XML来描述本领域的信息。随着XML应用的不断扩展,XML数据量日益膨
经典的事务特性是保障并发过程正确性和可靠性的抽象准则,就是所谓的原子性、一致性、隔离性和持久性(ACID)。在基于Internet的分布式应用中,许多应用问题的理想化处理都可归结
统计语言模型是很多自然语言处理任务的重要模块。一般而言,用来训练语言模型的数据量越大,训练得到的语言模型质量越好。Google公司通过LDC向学术界公布了Web1T词频数据,这部分
随着Internet的发展和企业级分布式应用体协结构的不断成熟,性能和伸缩性问题越来越被认为是大、中型服务系统所面临的最严重的挑战之一。缓存技术是提高企业级应用系统性能和
我国是世界上最大的棉花生产和消费国,棉花产业在国民经济中具有举足轻重的作用,棉种质量的好坏直接影响棉花作物产量的高低和产品的优劣。实际生产中的棉种混有大量未成熟棉种
网格提出的初衷是为了解决动态的跨域的分布式计算和资源共享。为了支持这种分布式的环境,需要一种轻量级的,跨域的动态委托授权方法。这种授权必须可以把权限授予原先并不熟识
在Web服务技术蓬勃发展和广泛应用的今天,Web服务的服务质量(QualityofService,QoS)越来越受到关注。当前很多研究集中在基于QoS的Web服务应用之上,如支持QoS的动态服务组装和调
长期以来,数字音频编码技术一直掌握在几个国际企业手中,由于在音频产业中缺乏自主权,中国每年要支付可观的专利费。2007年1月20日,信息产业部与广东省人民政府在人民大会堂新闻
随着网络与通讯技术教育应用的进一步普及和深化,计算机支持的协同学习(CSCL)的研究和应用获得了广泛关注,已成为目前的一个研究热点。协同学习的最终目标是学习者在完成学习
Chord以其对数级的较优定位效率,良好的可扩展性和容错性等特点成为结构化对等网络的典型代表。但是其网络拓扑中并没有考虑节点之间的物理距离,这样容易形成覆盖层与物理层