论文部分内容阅读
蛋白质的亚细胞位置信息能够为理解其生物学功能提供有力线索,在药物设计、病理分析等领域的研究中有着重要作用。在后基因组时代的当下,蛋白质测序技术取得了长足的发展。新发现蛋白质的数量正以惊人的速度飞速增长。如何快速准确的获取蛋白质的亚细胞位置信息已经成为了蛋白质组学中的一项关键任务。现有的蛋白质亚细胞位置识别方法主要分为基于生物化学实验的方法和基于计算的方法。其中,基于生物化学实验的方法是目前获取蛋白质亚细胞位置信息的主要手段。但是由于时间成本巨大,此类方法已经难以满足人们在识别效率方面的需求。与之相对,基于计算方法的出现为高效解决海量蛋白质序列的亚细胞位置识别问题提供了可行方案。近年来,人们对基于计算的蛋白质亚细胞位置预测方法做出了大量的研究。然而,受制于特征提取技术以及分类算法的性能,相关方法的预测准确率仍待提高。针对这一现状,本文在信息熵与深度森林的基础上对现有蛋白质亚细胞位置预测技术进行改进。在蛋白质特征提取方面,本文在分析了现有蛋白质特征提取技术缺陷的基础上,探究了基于信息熵的改进方案的有效性。在分类算法的构建方面,本文首先讨论了深度森林对蛋白质亚细胞位置预测问题的适用性,随后针对性的提出了两种改进模型以进一步提高最终预测结果的准确率。本文主要工作如下:(1)针对现有蛋白质序列信息特征提取技术以及进化信息特征提取技术的缺陷,提出了一种新的蛋白质特征提取方法,即IE-MoAC-PFR方法。其中,对于蛋白质序列信息特征的提取,针对传统n-gram-frequency特征不能有效表示蛋白质序列中氨基酸位置信息的缺陷,IE-MoAC-PFR方法使用信息熵刻画不同氨基酸片段在蛋白质序列中的分布情况,从而提升特征向量对蛋白质序列信息的反映能力。对于蛋白质进化信息特征的提取,针对传统基于自协方差的位置特异性矩阵的特征转换方法忽略了蛋白质序列中不同氨基酸在进化过程中的关系信息,IE-MoAC-PFR方法将自协方差扩展到位置特异性矩阵的不同列上。最后,为了能够更好地将蛋白质的序列信息和进化信息用于亚细胞位置的预测当中,IE-MoAC-PFR方法将所提取的蛋白质序列信息特征与进化信息特征结合生成蛋白质最终的特征向量。(2)针对蛋白质亚细胞位置预测问题小样本高维度的特性,提出一种深度森林改进算法,即FS-DF算法。为避免蛋白质高维稀疏特征向量中的无关特征以及噪声特征对模型最终预测准确率的影响,FS-DF算法将基于基尼系数的特征选择机制引入到深度森林的层级结构中。通过逐层筛除原始蛋白质特征向量中的无关特征以及噪声特征,相较于深度森林方法,FS-DF方法能够极大提升各层模型的性能,并在此基础上进行更为有效的表示学习。(3)FS-DF算法中,随着层级的不断加深,被筛除特征的不断增多可能会导致部分有用信息的丢失。为了更加充分地利用蛋白质特征向量中所蕴涵的亚细胞位置相关信息,从寻找并利用最优特征子集的角度出发,提出了一种新的深度森林改进算法,即Tabu-DF算法。在Tabu-DF算法中,面向最优特征子集的禁忌搜索机制被用于改进深度森林的层级结构。基于禁忌搜索可以避免陷入局部最优解的特性,Tabu-DF算法能够更有效地处理高维稀疏的蛋白质特征向量,并进一步提升最终预测结果的准确率。本文在Plant,NonPlant以及PsortNeg三个标准数据集上对新提出方法的性能进行了验证。实验结果显示,相较于现有的方法,新提出的方法能够有效提高蛋白质亚细胞位置预测结果的准确率,为相关研究提供更为有效的信息。