论文部分内容阅读
蛋白质结构决定蛋白质功能。随着各种基因组计划的完成,产生了海量的蛋白质序列数据,通过传统试验的方法已经无法对这些数据进行及时地处理。因此,利用计算方法进行蛋白质三维结构预测已成为当前生物信息学的研究热点之一。
在蛋白质结构预测算法中同源建模(Homology Modeling)被认为是当前最成功的预测算法。随着HPI(Human Proteomics Initiative)项目的开展,在未来5到10年内,越来越多的蛋白结构将会被确定,同源建模技术将具有更广泛的应用前景。然而,同源建模法存在两方面的严重缺陷:结构模板数量不足和目标一模板比对不够准确。
结构域在蛋白质进化过程中其结构功能相对独立。在InterPro数据库中多于2/3的结构域能在PDB中找到其相应结构,而且85%以上的蛋白质序列包含至少一个或多个结构域。因此以结构域聚类为模板可以预测出更多的蛋白质结构。基于这一思想,并针对同源建模中的两个缺陷问题,本文主要进行了如下几方面的研究:
1)提出基于三维结构的目标-模板比对算法tfi-profile:结构比对是目前最准确的比对方法,其常作为其它比对方法的基准,三维结构信息的加入往往能提高比对的准确度和灵敏度,结构域聚类数据库含有大量的结构信息,本论文从中抽取了基于三维结构的profile,并基于此构造sequence-profile比对算法,实验证明,算法可以提高比对的灵敏度和最终预测结果的准确度。
2)提出基于混合信息的目标-模板比对算法hybrid:虽然结构信息是非常重要的一类信息,但是由于结构比对在loop区域通常是没有意义的,所以纯粹基于结构信息的profile会造成一些信息丢失。同时,从理论上讲,在比对中加入的信息越多,比对就越准确,基于以上考虑,本论文中构造了基于一维、二维、三维混合信息的profile-profile比对算法hybrid,并对其在内外部测试集上进行了大量测试,结果表明,hybrid比对算法尤其在低相似度测试集上灵敏度和准确度比其他方法都有明显提高。
3)结构域合并方法:因为基于结构域聚类进行蛋白质结构预测方法的模板是结构域,所以其引出了一个新的问题,即结构域合并问题。这是一个很有难度的问题,对该问题,本论文采取了首先利用hybrid算法进行结构域映射分解,然后对结构域进行结构预测,最后进行合并优化的策略。并且选择了具有代表性的一些序列进行测试,结果表明在目标没有精确模板的情况下,基于上述结构域合并方案得到的预测结果明显优于直接同源建模的结果。
4)原型系统的实现:论文工作还包括一个原型系统的实现,即为用户提供一个交互平台,对用户通过交互平台提交的蛋白质序列在后台计算预测其结构并将最终结果返回给用户。