论文部分内容阅读
蛋白质亚细胞定位预测就是利用原始氨基酸序列来判断其具体的亚细胞归属,预测依据为生物学常用的观点,序列决定结构,结构决定功能,而亚细胞定位与蛋白质的功能有密切联系,所以我们必须以最初的氨基酸序列为基础来预测亚细胞定位。亚细胞定位这个课题非常值得钻研,除了能对蛋白质对于人体的作用有所知和其自身的功能如何实现,以及认识蛋白质相互之间的关系和生命的本质外,还可以了解疾病机理和发展新药物,从而达到治疗的目的。人类基因组计划产生了海量的生物数据,迫切需要用生物信息学方法来对亚细胞定位的课题进行深入研究。
本文所做的主要工作就是得到一个对于未知类别的氨基酸序列分类效果比较好的分类模型,以期用它来预测以后的未知分类的数据。大概内容有四大步骤:得到数据集,数据集的特征编码,预测模型的设计以及分类结果的分析。研究的重点是氨基酸序列的特征提取和设计预测分类模型。
对氨基酸序列进行分类前,必须把序列中表征定位的主要特征提取出来,也是把氨基酸字母转化为计算机能够识别的数字信息的一步。特征提取的效果对于分类准确率来说至关重要,可想而知只有提取出最主要最关键的定位特征方能便于定位。用的比较多的方法有氨基酸组成方法(AAC)、二肽组成方法(Dipeptide)、伪氨基酸组成方法(PseAA)、还有其他混合特征编码方法。本文研究时用的是融合特征的编码方式,结果显示,有效的融合多特征会比单使用一种特征编码方式效果更好。
蛋白质亚细胞定位预测是典型的多类分类问题,处理多分类问题一般就是转化成二分类问题来解决,然后再利用常用的二类分类器来处理,如支持向量机(SVM)、人工神经网络(ANN)、柔性神经树(FNT)等等。关键就是如何构建处理多分类问题的分类模型,本文采用了纠错输出编码模型(ECOC)来分多分类问题,基分类器选用了人工神经网络和柔性神经树,为了解决亚细胞定位数据集不平衡的问题,又改进为二叉树和纠错输出编码相结合的模型,取得了很好的效果。