论文部分内容阅读
自上世纪80年代生物信息学成为一门新的交叉学科以来,受到科学界的高度重视,其中最引人注目的是结构生物学。它的发展使得运筹学受到了建立数学模型分析复杂生物规律和从海量生物信息中提取有用知识两个方面的挑战。在生物系统本质上的复杂性和缺乏完备的生命组织理论的背景下,建立有效的数学模型和寻找合理的优化算法成为生物信息学研究的一个核心内容。本论文主要是从数学优化的角度着手,以蛋白质结构预测问题和蛋白质结构比较问题为研究对象,建立各问题的数学模型并构造相应的优化算法,目的是更好地探究这两类问题的一些规律以及得到更好的数值模拟结果。全文共分为五个部分,具体内容概述如下:第一章概述了生物信息学的发展状况并介绍了目前生物信息学领域的主要研究对象,说明了生物信息学研究的理论意义及实用价值。简要地总结了蛋白质结构与蛋白质序列和功能之间的关系,综述了目前生物信息学中蛋白质结构研究的五个热点问题:蛋白质结构的确定、蛋白质结构的预测、蛋白质结构的比较、蛋白质结构的分类和蛋白质的相互作用。第二章作为预备知识,介绍了本论文解决蛋白质结构预测和比较问题所需要的优化方法:弹性网算法、动态规划算法和完全信息集方法的主要内容与记号说明。第三章讨论了蛋白质结构折叠的一个简化问题-HP格点模型。以往学者更多关注的是算法构造和数值模拟。本章主要基于数学优化理论的思想,依据热力学原则,分别建立了二维和三维HP格点数学优化模型,证明了可行域的非空性、目标函数值的有界性和最优化问题的最优解的存在性。第四章针对HP格点模型,改进弹性网算法来求解氨基酸序列在网格上折叠的最优构象。为了克服弹性网算法本身的一些局限性和进一步提高数值模拟结果的精度,构造了局部搜索方法和网格剖分策略。分别在二维紧致、二维非紧致和三维HP格点模型下,对一些基本测试题进行了数值模拟,数值结果表明本文的算法可以找到氨基酸序列在网格上的更低能量状态。这些方法的组合可以推广到一般的离散匹配问题。最后分析了在紧致和非紧致两种情况下蛋白质结构的可设计性。第五章基于数学优化思想,研究了蛋白质结构比较问题。通过引入完全信息集将蛋白质序列抽象为完全特征集,并定义了两个变化的序列的偏差值和偏差率函数,建立了蛋白质结构比较的数学优化模型,证明了模型最优解的存在性。本章将双层动态规划与完全信息集方法结合起来构造求解比较问题的优化算法。由于完全信息集方法中序列的偏差值函数具有一些好的性质以及求解得分矩阵时要利用蛋白质主链的结构信息,所以这个方法将蛋白质的序列信息和蛋白质的结构信息有机地结合在一起。