论文部分内容阅读
随着后基因组时代的到来,生命科学的研究内容呈高速发展态势,生物信息数据迅速增长。由于生物数据具有大规模性和复杂性的特征,因此,探索如何高效处理海量生物数据的生物信息学学科就应运而生。生物学功能取决于蛋白质所处的亚细胞位置,同时,蛋白质发挥功能的必要条件是该蛋白质要处于特定的亚细胞位置。如果蛋白质的运送位置发生了偏差,那么将会对细胞功能乃至生物体产生重大影响。此外,明确蛋白质的亚细胞定位能获取蛋白质的功能和结构信息,也可以使人们了解疾病的发生机理,有利于生物制药和细胞医疗领域的深入发展。因此,蛋白质亚细胞定位预测成为了后基因组时代生物信息学的主要研究内容之一。生物学观点认为,蛋白质序列决定结构,结构决定功能。蛋白质亚细胞定位预测的生物信息学方法主要是通过智能算法和最初的氨基酸序列来预测蛋白质具体的亚细胞位置。蛋白质亚细胞定位预测的生物信息学方法一般包括四个步骤:第一,建立一个客观有效的数据集;第二,选择合适的特征提取方法对蛋白质序列进行编码;第三,利用智能算法构建行之有效的分类器,应用分类器对蛋白质序列进行亚细胞定位;第四,根据预测结果对分类器算法进行评估。本文系统的介绍了蛋白质特征提取方法、蛋白质亚细胞定位的智能算法、离散增量法和神经网络等基本理论,在总结前人的研究基础上,提出了使用离散增量法结合神经网络进行蛋白质亚细胞定位预测的方法。研究的重点是,将离散增量法和神经网络进行有效结合以及能够使蛋白质序列获得较高的预测精度的特征提取方法。进行蛋白质亚细胞定位,首先必须通过特征提取方法使蛋白质序列成为计算机能够识别的数字信息。特征提取方法对亚细胞定位预测正确率至关重要,常用的特征提取方法有氨基酸组成模型(AAC)、二肽组成模型(Dipeptide)、水合组成模型(AAHC)、伪氨基酸组成模型(PseAA)、理化组成模型(PCC)、分组重量编码(EBGW)、N端信号编码(NTS)等。本文研究时,将离散增量法这种分类器方法转化成特征提取方法,将常用特征提取方法提取后的蛋白质序列输入到离散增量分类器中,将得到的多样性增量作为蛋白质的特征。同时,将各种常用特征提取后得到的多样性增量特征进行了融合。结果显示,有效的融合多特征会比单使用一种特征编码方式效果更好。其中,N端信号编码对亚细胞定位预测效果的提高起到了很大的作用。常用的二分类器方法有K近邻方法(KNN)、贝叶斯网络、人工神经网络(ANN)、柔性神经树(FNT)等。但蛋白质亚细胞定位预测是典型的多类分类问题,用上面提到的几种分类器进行多分类,预测结果并不理想。因此,处理多分类问题就需要转化成多个二分类问题来解决,然后利用常用二分类器来预测。本文在进行SNL6数据集的亚细胞定位预测时,通过纠错输出编码模型(ECOC)转化成二分类问题来解决,基分类器采用了人工神经网络,网络系数的优化算法采用了粒子群优化算法(PSO),取得了较好的预测效果。