论文部分内容阅读
随着人类基因组计划的顺利完成,越来越多的DNA序列和蛋白质序列被测定出来,单纯的生物实验已经无法填补大量序列信息与严重不足的蛋白质功能注释之间的空隙,而且既耗时,成本又高,所以迫切的需要通过计算的方法来预测蛋白质功能。然而,另有生物学研究表明,蛋白质功能与蛋白质亚细胞定位是密切相关的,蛋白质亚细胞定位信息可以为蛋白质功能的研究提供有用的线索。因此为了进一步了解蛋白质的功能,识别蛋白质的亚细胞定位成为了蛋白质组学的一个重要研究方向。本文主要围绕这一主题,针对蛋白质序列的编码方法和分类预测算法两方面进行了研究,并在不同的数据集上分别进行了测试和分析。本文的主要创新工作概括如下:本文提出了一种新的蛋白质序列编码方法,该方法由三个序列特征融合而成,第一个序列特征为传统的20维的氨基酸基本组成,第二个序列特征为氨基酸位置信息,主要提取了每个氨基酸残基在序列中的位置信息,第三个序列特征为氨基酸局部顺序信息,我们将每个氨基酸残基用五位ASCII码表示,那么每条L长度的蛋白质序列,局部顺序信息可以用一个5行L列的矩阵表示,之后我们再计算该矩阵每行四联体出现的频率。在本文中,我们采用最近邻分类算法作为预测分类工具,在两个不同的凋亡蛋白数据集上进行测试,并在该这两个数据集上进行自检验和刀切法检验,由实验结果可知,此方法获得了较好的预测效果,与其他方法相比,也具有明显的优势。