论文部分内容阅读
蛋白质结构研究是生命科学的基础和重大核心问题之一。蛋白质的结构决定了它的功能,因此进行蛋白质结构预测对于深入了解蛋白质的功能,以及分子设计、生物制药等领域都有着很重要的现实意义。然而,随着人类基因组项目和其它大规模测序项目带来的生物学数据爆炸性的增长,传统的实验确定蛋白质结构的方法已经远远不能满足需求。因此,从理论上根据蛋白质一级序列预测其空间结构就显得非常必要。在众多方法中,神经网络作为机器学习的重要方法,在蛋白质结构预测中得到了广泛的应用,并取得了很好的效果。本文使用的是一种构造性的神经网络算法—覆盖算法,并将其应用到蛋白质二级结构和蛋白质结构域预测中,取得了很好的效果。 本文的主要工作分为以下几个部分: 1.首先概述了本课题国内外研究的现状和发展的过程。对生物信息学和蛋白质的相关内容和概念进行深入的学习,分别对二级结构预测和结构域预测的方法进行分类研究,比较各种方法的优势和不足,进而提出了使用覆盖算法及其改进算法(核覆盖算法)进行二级结构和结构域预测的思路。 2.对蛋白质二级结构进行深入分析研究,利用核覆盖算法结合Profile编码提高了二级结构预测的准确率。首先,比较分析各种机器学习的方法,选取覆盖算法的改进方法,即核覆盖算法建立预测模型,核覆盖算法是领域覆盖的一种改进算法,它将SVM中的核函数法和构造性学习的覆盖算法相融合,具有鲁棒性强,准确率高等优点。然后利用网络资源从蛋白质数据库中整理出一定数量的蛋白质序列做为实验的数据集。通过对蛋白质的序列编码仔细研究,并比较了各种编码方式的特点,采用了带有遗传信息的profile编码。在MATLAB平台上采用核覆盖算法进行蛋白质二级结构分类研究,并与其它方法进行比较分析,结果表明了核覆盖算法在蛋白质二级结构预测中的可行性和有效性。 3.结构域的识别是蛋白质研究中一个极具挑战性的课题,我们尝试首次将覆盖算法应用于结构域预测中,仅通过挖掘与分析序列本身所包含的信息来预测结构域位置的划分。通过从已有的结构域数据库中选取一定数量的序列作为实验的数据集。利用覆盖算法进行训练建立预测模型,对预测的初步结果进行后处理与分析,最终确定结构域的划分位置。我们的工作重点是分析氨基酸序列所包含的可挖掘的属性信息,通过对每个属性单独进行编码预测并尝试将多个属性组合编码预测,从生物学的角度分析比较实验结果,寻找到最有助于提高预测准确率的属性组合。实验结果验证了覆盖算法在蛋白质结构域预测中的可行性。将覆盖算法引入结构域预测中为蛋白质结构域位置的划分提供了一种新的思路与方法。