论文部分内容阅读
蛋白质由氨基酸残基呈线性排列所形成,通过残基间的相互作用折叠成立体结构,蛋白质的功能取决于其立体结构。蛋白质结构预测的目标是通过蛋白质链直接预测其立体结构,它是当前蛋白质工程中的一项重要任务。 HP(Hydrophobic-Polar)格点模型是蛋白质结构预测的一个简化而重要的模型,它已被证明具有NP难度。对于NP难度问题,完整精确的求解算法一定超过多项式复杂度(除非P=NP),对于较大规模的问题实例,它所需要的运行时间在现实中往往难以接受。近似求解算法虽不能保证求得最优解,但所需要的时间可大大减少,能在可接受的时间内求出令人满意的近似最优解,它是完整精确的求解算法在现实情况下很好的替代品。 启发式优化算法是当前最为重要的近似算法。启发式优化算法将人类关于物理和生物界的知识用到算法的设计中来,近几十年得到了空前发展,产生了大量不同类型算法,是当前求解大规模复杂问题较为现实的途径。拟物拟人算法将物理知识和人类社会经验用到算法的设计中,是对现代启发式优化算法的重要扩展和补充,能进一步提高算法的效率。 通过对HP格点模型中蛋白质构型的几何结构的研究,得到了基于构型几何量的能量计算公式和上界估计式。在研究蛋白质的生长过程时,此能量计算公式得到进一步的细化,最终用于求解算法的设计。上界估计式可用于判断一个蛋白质构型是否为最低能量构型。 通过蛋白质构型的生长过程与围棋的对弈过程的对比,将围棋中的“实利”和“外势”这两个概念借用到蛋白质构型上来,用实利和外势引导蛋白质构型的生长。通过对当前格局对以后获取实利的影响的分析,构造外势的估算公式,此公式最后用于算法的构造。 蒙特卡洛方法是研究蛋白质结构预测的重要方法,PERM(Prune-Enriched Rosenbluth Mothed)算法是对蒙特卡洛方法中顺序重要性取样的重要改进,是当前求解HP格点模型最为高效的算法之一。通常的顺序重要性取样的权重只与构型的能量有关,没有考虑构型的几何结构对将来的影响。我们将构型的外势作为权重的一个因子,重新构造了权重计算公式,并结合PERM算法的分支控制思想,提出了一个拟人随机生长算法。另外,通过分析基于结构的能量计算公式在构型生长过程中的演变过程,和能量计算公式中各个分量对能量的影响,构造了新的顺序重要性取样的权重,提出了一个启发式结构优化算法。 我们用国际公认的重要算例,对拟人随机生长算法和启发式结构优化算法的二维情形进行了测算,并与当前国际上重要的算法进行了对比,结果表明,前述关于HP格点模型的相关计算公式可以用来改进求解算法的效率。 目前最为成功的结构预测方法是同源建模法。同源建模法利用氨基酸序列相似的蛋白质的已知结构作为“模板”,以获得未解析的同源蛋白质的结构。确定蛋白质链的相似性是同源建模法的基础,而蛋白质链的氨基酸片段匹配又是确定蛋白质链的相似性的基础。BM(Boyer-Moore)算法是字符串匹配的最为高效的算法之一,针对它们在生物信息学中的应用,提出了BM算法的改进型算法CBM算法和BMX算法,它们能使BM算法的效率进一步提高。