论文部分内容阅读
蛋白质在生物体内执行着各项重要任务,蛋白质功能取决于蛋白质的空间结构。而蛋白质结构取决于蛋白质的序列,蛋白质序列与蛋白质结构存在着一定的对应关系。如何根据蛋白质的序列信息来预测蛋白质的结构是目前生物信息学亟待解决的问题,也是本文研究的重点。通常有以下几种方法来预测蛋白质的结构:如果待测序列和已知序列有很大的相似性,同源建模(Homology Modeling)是最好的方法;如果相似性不高,可采用线索化方法(Threading)。在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法(AB Initio),即直接根据序列本身来预测其结构。基于框架库(Fragment Database)的蛋白质结构预测方法属于从头预测方法的一种。在CASP6(the Sixth Critical Assessment in Structure Prediction)评测中的典型用法是将这种方法和同源建模方法结合起来使用:在排列区域坐标取自模板,在无排列区域使用该方法进行模拟。以前的方法,虽然可以用很少的框架获得满意的拟合结果,但是问题在于:局部最优的结构对应的不一定是全局最优的。本文尝试找出全局最优框架序列。这些框架具有确定的空间结构并在序列上具有相当大的保守性。本文提出了一种基于框架库的蛋白质结构预测的新方法,旨在根据少量的信息尽可能准确的预测出蛋白质的结构。首先根据空间信息,把已知结构的蛋白质切分成框架,进行聚类,得到框架库。这里的框架是构成蛋白质三维结构的小的联系单元,它从新的层次上解析了蛋白质的空间结构。然后根据序列信息和局部匹配算法,将目标蛋白质切分成片段,并给每个片段赋予特定框架的结构,最后利用图论中的最短路径算法找到和目标蛋白质最匹配的框架序列。预测步骤的输入是框架库,输出是和目标序列匹配的框架序列。该方法将已知结构的蛋白质切分成更小的单元,比起传统的切分方法,能更准确的表示蛋白质的结构;图论方法的采用,降低了计算的复杂度。