论文部分内容阅读
随着人类基因组计划的完成,生命科学的研究重点从生物数据的获取与整理转移到其生物功能注释上,包括基因、蛋白质的功能与结构的注释,大规模基因表达谱中的基因表达模式分析等.其中,蛋白质亚细胞位点的识别是蛋白质功能注释的重要步骤,它对于开展生物大分子结构模拟和药物设计等都具有重要的意义.目前确定蛋白质亚细胞位点实验方法主要有,细胞分馏法,电子显微镜分析和荧光显微镜法,但它们普遍存在着主观性强,耗时等缺陷.因此,开发有效的计算预测方法具有重要的实际意义.在亚细胞位点方面,人们已经展开了广泛的研究,并且取得了一系列很有意义的成果,从而为研究蛋白质功能奠定了基础.目前存在的预测亚细胞位点的方法有很多种,但是每种方法都有其局限性,因此找到一种有效的可信度高的预测蛋白质位点的方法是很必要的.
本文第一章介绍了生物信息学的产生背景和主要研究内容.在第二章介绍了预测亚细胞位点的几种常用分类器和特征提取方法.在第三章,我们提出了一种基于马尔科夫模型的改进的预测方法.首先,对于一条给定的蛋白质序列,通过计算其在马尔科夫模型下20个氨基酸残基的状态转移矩阵,建立一个420维的特征向量,然后利用支持向量机进行训练和预测,最后通过央克刀检验,该方法的预测精度与以前的马尔科夫模型相比得到了一定的提高.