论文部分内容阅读
生物信息学数据的爆炸性增长和人类基因组计划的顺利实施极大地促进了生命科学的发展。作为生命活动的主要承担者,蛋白质与各种生命活动息息相关,因为任何生命活动都与蛋白质之间的相互作用密不可分,而蛋白质之间发生的相互作用又与蛋白质中的亚细胞器有着千丝万缕的联系,因此对于蛋白质相关领域的研究具有十分重大的意义,另外,蛋白质亚细胞定位预测和蛋白质之间相互作用研究又有助于研究人员进一步理解生命活动的作用机理。一般来说,蛋白质相关功能的研究主要涉及两个步骤:一个是蛋白质序列的特征提取;另一个是分类算法的选择或分类模型的构建。因此,本文将主要精力集中于蛋白质序列编码算法的研究中,并将其应用于蛋白质亚细胞定位和相互作用的预测中。本文的主要创新性工作如下:(1)本文在伪氨基酸组成序列编码的基础上提出了一种新的蛋白质序列编码方法。该方法不但保留了氨基酸组成的信息,还引入了蛋白质序列中氨基酸残基的位置信息,同时还考虑到了氨基酸残基的相关理化性质以及氨基酸序列中残基间的相关性信息。通过该方法可以顺利地提取出氨基酸序列中与亚细胞定位密切相关的特征信息,并将其转化相应的数值特征向量,然后本文选取两个典型的数据集作为训练集和测试集,并选择K近邻分类算法作为分类器进行样本的分类训练和测试。在实验的过程中,与其他已有的方法进行对比和分析,结果显示本文所提方法具有较好的预测性能。(2)本文全面考虑了影响蛋白质相互作用的诸多因素,并在综合考虑这些因素的基础上提出了一种基于融合特征的蛋白质序列编码方法。该方法中包含了氨基酸组成的特征信息,并且为了将蛋白质序列上氨基酸残基间的顺序信息包含其中,引入了三联体编码方法,但是三联体方法的引入也带来了特征向量的高维度。为了将特征向量降维,本文根据氨基酸残基的理化性质将20种氨基酸分为七类,考虑到氨基酸序列上与蛋白质相互作用密切相关的氨基酸残基间的相关性特征,又引入了一种新的自相关特征编码方法。最后为了评估该序列编码方法的预测性能,本文选取了三类不同的数据集,并运用支持向量机作为分类算法来进行样本的训练和预测。实验结果显示,本文所提算法具有较好的预测性能,并且与其他已有的算法相比,本文算法仍具有一定的优势。