论文部分内容阅读
上世纪80年代以来,DNA测序方法的发展累积了海量的大分子序列数据信息,提供给人们丰富的资源来研究蛋白质的生物功能。蛋白质的生物功能很大程度上取决于蛋白质的三维结构性质。虽然随着实验手段的发展,越来越多的蛋白质结构通过实验手段被测定了出来,但是还是远远落后于新的蛋白质序列的增长速度。如何缩小蛋白质序列以及结构之间的鸿沟已经成为分子生物学的一个中心课题。随着计算技术的发展,计算生物学或者称为生物信息学作为一门新的学科为这个问题提供了一种解决的途径。其主要依据来自于这样的假设,即蛋白质折叠所需要信息完全包含在蛋白质的一级序列之中。基于这一假设,同源模建、折叠识别以及从头预测等一系列基于序列的结构预测方法得到了广泛的发展,并取得了相当的成果。在此基础上,本文对蛋白质结构预测中一些关键问题,如蛋白质序列分析、蛋白质折叠识别势函数以及对处于序列相似性“朦胧区域”的蛋白质的结构预测等,进行了深入的研究。利用小波包在提取信号局部特征的优势,发展了一种基于小波包变换的多序列比对方法。小波包能够准确定位多个序列之间的相似区域,即保守域,增强了多序列比对精度且缩短了比对时间。在BAliBASE以及ROSE测试平台的帮助下,验证了本文所提出的多序列比对方法具有良好的精度以及速度,是一种有效的多序列比对工具。发展了一个简化蛋白质折叠识别函数,势函数包括三个简单的能量项:残基接触相互作用能、疏水能以及主链虚拟二面角扭转能,仅需要212个参数,具有计算简单的特点。利用一个蛋白质训练集,对势函数的参数系通过线性规划的方法求解。势函数的蛋白质自然构象识别能力在几个高质量的测试集上进行了验证,结果显示我们的势函数具有非常高的自然构象识别能力,与其他简化势函数比较其精度位于前列,具有良好的应用前景。提出了基于参数评价函数的蛋白质折叠识别势函数优化模型。参数评价函数把复杂的多目标多约束优化问题转化为单目标无约束问题,然后用共轭梯度法进行求解,不但降低了求解难度,而且使得在优化过程中其解远离可行域的边界,保证了对多目标中所有目标同时进行优化。在几个标准测试集上的测试结果表明,与基于线性规划的势函数相比,结果显示新的优化模型以及方法提升了势函数的质量。发展了一个基于遗传算法的Threading程序。其能量函数更加具有物理性,包含了六个能量项,成对接触相互作用使得目标序列与模板蛋白的匹配问题变成了一个NP完全问题。遗传算法是一个全局启发式算法,具有良好的搜索能力,在Fischer测试平台上的测试也证明了本文所提出方法具有良好的折叠识别能力以及比对精度。另外,比对精度与折叠识别结果之间的关系也显示出了能量函数的合理性。本文的工作得到国家自然科学基金“药物分子优化设计的网格计算方法研究No.10772042”、《国家重点基础研究发展规划》项目“基于基因功能的创新药物研究No.2004CB518901”和国家863科技计划课题“新药研发网格No.2006AA01A124”的资助。