论文部分内容阅读
基因组测序技术的发展和质谱技术的进步,使得能够快速地产生大量的蛋白质序列数据,然而相比之下,经典的蛋白质结构测定方法速度却很慢。因此,为弥补测定蛋白质序列和蛋白质结构之间的速度差异,使用计算方法预测蛋白质三维结构是一种重要手段。蛋白质结构预测算法主要有三种,即同源建模、穿线法和从头预测。同源建模和穿线法要依赖于已知蛋白质结构数据库,因此如果结构数据库中没有同源的蛋白质,这两类方法就无法奏效;相反地,从头预测方法具有不依赖模板数据库的优势。然而当前的Ab Initio算法预测出的构象精度还比较低。鉴于上述分析,为了提高蛋白质结构预测的精度,一种可行的方案是把基于模板的方法(同源建模或者穿线法)和不依赖模板的方法(从头预测)结合起来。本文对蛋白质结构预测的Ab Initio方法进行了研究。主要研究内容及结果如下:
⑴提出预测保守区域的方法:一般来说,进化过程中蛋白质结构的保守性要高于序列的保守性,而且局部保守性要优于整体的保守性。因此本文的目标是找到基于结构的局部保守片段。本文作者首先把预测保守区域的问题形式化定义成一个最优化问题,并提出了如下的保守区域预测算法:首先利用计算bottleneck距离的近似算法找出保守片段的极大区间;然后用动态规划算法从所有的极大保守片段找出最大长度的保守区域;此外,为了降低时间复杂度,本文作者还利用一些剪枝规则来减少不必要的计算。实验结果表明,该本文提出的方法可以得到大部分native-like的片段,同时去掉很多non-native-like的片段。
⑵提出基于保守区域的蛋白质结构预测方法:本文提出一种综合利用穿线法和从头算方法的优势的方法,即基于保守区域的从头预测方法。该方法简要介绍如下:首先从穿线法得到的备选构象中寻找保守区域;然后,固定保守区域,用fragment-sampling的方法补充非保守区域,并重建蛋白质结构;接着采用迭代策略,即从得到的新构象中产生新的保守片段,再重建构象,如此迭代2~3次。实验结果表明:结合保守区域,能提高目前从头算方法的准确度,同时对于穿线法的结果也有改进。
⑶能量函数优化的线性规划模型:能量函数在蛋白质结构预测、蛋白质模型选择和蛋白质折叠模拟中都有非常重要的作用。传统的能量函数设计准则是使天然构象能量越低越好,然而这样的能量函数和蛋白质结构预测这一目标并不完全一致;另一种观点是:能量函数landscape应当形成光滑扁平的漏斗形,不仅要求天然构象的能量低于其它构象,而且到达天然构象或者天然构象附近的几率最大,即能量函数landscape局部极小点尽量地少,同时landscape basin应尽量地大。本文提出了一种基于线性规划的能量函数优化模型。实验结果表明,优化以后的能量函数更适合用于模型选择中,同时能量landscape比以前更光滑。