论文部分内容阅读
蛋白质是一切生命运动的物质基础,针对蛋白质的研究不仅是传统生物学重要内容,而且也是生物信息学的核心研究内容。由于蛋白质的种类多种多样,其执行的任务复杂而繁多,因此针对蛋白质的功能研究是一项十分困难却意义重大的任务。本文在系统的研究了前人的工作基础之上,对几类重要蛋白质的分类问题做了进一步的拓展和深化。蛋白质亚细胞定位的预测是近年来备受关注、意义重大的研究方向。本文第二章的研究围绕这一领域展开。文献中大部分蛋白质亚细胞定位预测算法只能处理一个蛋白仅属于一个亚细胞位置的情况。但是,一些蛋白可能属于两个甚至更多的亚细胞位置。开发能够预测多标记蛋白的计算工具非常重要,因为这些蛋白往往拥有特殊的生物学意义,在基础生物学研究和药物发现方面尤为如此。考虑到目前的情况下,针对多标记蛋白预测的研究还非常有限,研究使用一些新的方法,用以研究蛋白的多标记问题是非常有价值的。鉴于不同的特征提取方法、不同的预测算法应用到不同的基准数据集会产生结果迥异的预测效果。本章使用了两个不同的特征提取方法和两个不同的神经网络搭配组合成多种预测模型,并将它们应用到革兰氏阳性细菌蛋白质,植物蛋白质和病毒蛋白这三个不同种类的基准数据集。这些基准数据集具有不同数量的蛋白质样本以及蛋白质亚细胞位置且规模较小。测试结果表明,无论选择哪种类型的特征提取方法,在这些基准数据集上,RBF神经网络较之BP神经网络都表现出了明显的优势。针对数据规模较大的多标记数据集的预测问题。本章节进一步使用多标记KNN(K-Nearest Neighbors)算法取代BP神经网络作为预测算法,与RBF神经网络一起参与预测。本章同样将这两个预测算法与两种不同的特征提取方法组合成多个预测模型,并将它们应用到人类蛋白质,真核蛋白质和革兰阴性细菌蛋白质这三个不同种类的基准数据集上。这些基准数据集规模较大,包含的子类更多且所含的数据量各不相同。应用结果表明,总体来说,多标记KNN算法和RBF算法取得了较为接近的预测结果,有些组合在某个数据集上有自己的优势。总的来说,预测组合(PSSM+RBF)表现出了最佳的预测效果。膜蛋白的类型预测同样是一个有意义的研究课题,因为这种信息能够非常有效的解释膜蛋白的功能和作用。近年来,膜蛋白质序列的生成数量呈现爆炸式增长的趋势,急需发展有效的计算工具,以快速、准确地预测给定的蛋白质序列的膜类型。目前已经开发出几种针对膜蛋白的预测器,但是这些预测器只能处理一个蛋白对应单个膜类型的情况。而事实是,存在有属于两个或多于两种类型的膜蛋白。为了解决这个问题,本文第三章提出了能够处理一个蛋白同时对应多个膜蛋白类型的预测模型并取得了较为理想的初步预测结果。给定一个特定的蛋白,了解其属于哪一种四级结构类型非常重要,因为此类信息与它的功能是高度相关的。现有蛋白质四级结构类型一系列预测方法已被提出,这些方法均只专注于一个蛋白对应与单个四级结构的情况。但根据国际标准蛋白质数据库的注释,一个蛋白对应于多个四级结构类型的现象广泛存在。因此,开发新的计算工具可以处理蛋白四级结构中存在的多标记样本一个有意义的任务。有鉴于此,本文第四章提出一个新的基于多标记预测的计算模型用以处理此类问题,它采用伪氨基酸成分和ET-KNN算法相结合的方法构建而成。本文的研究结果表明,这个模型是预测此类问题的有力工具。本文第五章则主要尝试解决蛋白质亚-亚细胞层面上的多标记问题。蛋白质亚-亚细胞功能定位是研究蛋白质功能的进一步细化。其着眼点是,在蛋白质亚细胞功能定位的基础之上,研究这些细胞器继续被细分为若干个功能区的问题,这一领域的研究对象目前主要集中在线粒体、叶绿体以及细胞核上。尽管针对每一个种类的细胞器数据集,已经有好几种方法来预测亚细胞器功能区位置(蛋白质亚-亚细胞功能定位),但它们只能处理一个蛋白属于单个亚细胞器功能区的情况。但是,本文研究表明,上述任意一个细胞器数据集中,存在一个蛋白同时处于一个以上亚细胞器功能区的情况.遗憾的是,该现象尚未得到足够的重视,目前尚未见有致力于研究亚细胞器功能区多标记预测问题的报道,而研究此类现象对于进一步深化蛋白质功能的认识,具有重要的意义。因此,考虑如何将处理蛋白质对应于多个亚细胞功能区的预测问题包含进来而不是将拥有多标记属性的蛋白质剔除出数据集是一项有意义并且富有挑战性任务。本文基于此,针对每一个细胞器,建立了若干个同源性程度不同的数据集,并根据这些数据集的规模和复杂程度,选定几种多标记系统预测数据集中各个蛋白所属的功能区位置,这些预测系统基于几种不同的特征提取方式和预测算法组合构建而成。这是在该领域内,研究处理蛋白质的多标记归属的初步尝试,并取得了一系列有价值的结果。如在三个同源性程度不同的叶绿体数据集上,最佳预测组合(功能分类)所得到的整体杰克刀成功率分别为89.08%、81.29%和71.11%。预测模型的结果表明,本文所建立的预测模型能够有效的处理蛋白质亚-亚细胞功能定位中存在的多标记问题,可以作为辅助工具用于亚细胞器功能区多标记定位预测。大多数针对蛋白质的预测研究一般总是基于单个特定的数据集使用一定的模型或算法。考虑到后基因组时代的数据规模以及生成的数据的速度,这种类型的研究显示出一定的低效性,因为它们无法针对不同的数据集采用相同的模型并得出结果。本文在第六章提出了一个多功能的集成分类器,它结合了几个单独的子分类器。其中的每个子分类器都在不同的参数系统参与训练,最终的预测结果通过加权投票系统来得出,该预测系统可以同时应用到几个按严格标准生成的不同种类的生物数据集上。基于三种不同类型的生物数据集上的测试结果,可以认为这个新的预测器可以处理更为广泛的生物数据类型,经过一定的试探性比较,证明了其高效性。