论文部分内容阅读
随着人类基因组计划的成功实施和现代分子生物学的蓬勃开展,给人们留下了海量的生物学数据,并把人们带入了后基因组时代。由于后基因组时代生物学数据的大规模性,及数据之间关系的复杂性,使得人们不得不借助计算机来存储和处理这些海量数据。这样通过对生物学实验数据的获取,加工,存储,检索与分析来揭示海量的生物学数据中所蕴含的普遍的生物学意义为主要目的的生物信息学应运而生。很早就有文献研究表明:蛋白质序列相似程度越高,它们就越可能出现在同一个亚细胞定位中。因为同源蛋白的序列具有很高的相似性,并且具有相同或者相似的生物学功能,所以其亚细胞定位也具有相似性。随着人类基因组的测序成功,公用蛋白质数据库中蛋白质的数量和蛋白质功能注释之间的矛盾日益尖锐。然而由于生物学数据的海量性,基于传统的生物学的实验手段去挖掘这些数据海洋中规律性显然是费时、费力和高代价的(time-consuming and costly)。因此,开发能够直接从蛋白质原始序列中准确预测蛋白质空间结构、亚细胞定位和蛋白质蛋白质相互作用的算法被提上日程。蛋白质亚细胞定位和亚核定位预测是后基因组时代生物信息学中的重要研究内容。基因的表达使得蛋白质在核糖体内(细菌在细胞质中合成)的合成成为可能,也使得遗传信息进行传递。蛋白质合成后必须被转运的特定的亚细胞器中,才能正常发挥其生物学功能,使整个生命机体正常运转。如果合成的蛋白质的定位与其天然定位发生偏差,细胞的各种功能及其构成的生命机体将遭受重大影响。本文在前人研究的基础上,从组成蛋白质一级结构的氨基酸原始序列出发,提出利用进化模糊K-近邻算法(Evolutionary Fuzzy K-Nearest Neighbor, EFKNN)及其集成(Ensemble)分别对革兰氏阴性菌的五个亚细胞定位和真核细胞核中的九个亚核定位中的蛋白质进行了预测。FKNN最早由James Keller等人于1985年率先提出而FKNN算法是在K-近邻分类(KNN)算法的基础提出来的,KNN从训练样本集中寻找K(事先设定)个与待测样本在某种规定的距离下最近的样本,然后把待测样本判决为在K个与待测样本最近的的样本中,样本类标号重复出现次数最多的类。FKNN亦是基于此原理,不同之处在于对待测样本做判决时根据样本属于每一类的程度赋予该样本一个隶属度。隶属度越大,表示属于某一类的可能性越高。把模糊理论引入KNN算法中,在很大的程度上削弱了训练样本分布不均匀性对分类效果的影响,提高了分类精确度,并且在一定程度上降低了该算法对K值的敏感性。为了提高分类器的精度,提高分类器自身的泛化能力,本文把集成学习引入到蛋白质亚细胞定位预测中。研究表明,当个体分类器具有较高精度,并且集成的个体分类器之间具有明显的差异性时,集成的分类结果才更有效。基于此理论,首先,在包含299条分布在5个不同的亚细胞定位的革兰氏阴性菌蛋白质的数据集上,运用伪氨基酸特(PseAA)征提取算法,采用不同的K值训练了6个个体和精度都存在明显差异的基分类器,运用jackknife交叉验证的方式,对分类结果采用一种新型的加权投票即累加投票量原则(Accumulative Vote Quantity, AVQ)进行集成,取得良好了分类结果。其次,为了提高个体基分类器预测精度,增大个体分类器之间的差异性,我们又在亚核定位数据集SNL9上,为了更科学的表示蛋白质序列,分别使用了氨基酸组成(AA)、伪氨基酸组成模型(PseAA)、准序列顺序(Quasi-sequence-order)模型、理化组成模型(PCC)、氨基酸组成模型和理化组成模型融合(Fusion)等5种蛋白质特征提取算法对蛋白质原始序列进行特征提取,利用这五种算法提取的特征,训练了5个结构不同的EFKNN分类器,并且在每个基本分类器中,每个分类器K的取值通过实验得出。这样充分保证了基本分类器之间的个体差异性和分类精度,并运用AVQ方法对分类结果集成,也采用jackknife交叉验证的方式,对细胞核内的9类亚核定位的蛋白质进行了预测,正确率为70.0%。通过实验结果表明,提出的预测模型在蛋白质亚细胞定位预测方面具有广阔的应用前景或至少对现有预测模型做了有效的补充。AVQ集成方法的提出,提高了分类精度,丰富和发展了集成学习理论方法的研究和实际应用。