论文部分内容阅读
研究蛋白质亚细胞定位对了解细胞生命活动、推断未知特性蛋白质功能、诊断疾病和研制新药等具有重要作用。随着生物信息学的兴起、发展,蛋白质序列数据大规模产生,大量蛋白质亚细胞定位预测方法被提出。本文引入词袋模型对传统的蛋白质序列特征提取算法进行改进,运用支持向量机进行亚细胞定位预测,取得较好的实验效果。论文主要工作有以下几点:(1)采用两个凋亡蛋白数据集ZD98和CH317以及按标准方法构建的革兰氏阴性菌数据集Gram796,并运用经典的SMOTE算法对数据集进行重构。(2)为提高传统蛋白质序列特征的识别精度,提出词袋特征提取算法,该算法引入词袋模型,结合氨基酸组成、伪氨基酸组成特征提取算法利用大量的科学计算尽可能全面地提取蛋白质序列的氨基酸组分信息和位置信息,主要分为蛋白质序列分割、序列单词特征提取、kmeans构建字典和统计计算4个阶段,有效地将蛋白质的氨基酸序列转化为特征向量,为后续的分类预测实验提供优质的样本。(3)为提高实验效率,形成一个高度可扩展的运算平台,为进行大规模的生物学数据分类提供可能。组建Hadoop集群运用MapReduce编程框架实现词袋特征提取的并行化运算。(4)为进行有效的定位预测实验,构造支持向量机多类分类器对蛋白质序列的亚细胞位置进行预测,并运用遗传算法和网格搜索法优化模型参数,提高支持向量机的性能,随后为能同时在不同数据集上进行特征提取和分类预测实验,利用MATLAB的并行运算工具箱PCT实现了定位预测任务的多核并行运算,整体提高了实验效率。(5)为检验算法性能,在数据集ZD98、CH317和Gram796上进行客观有效的Jackknife检验,通过敏感性(Sn)、特异性(Sp)和相关系数(MMCi)3个评价指标,以及总的准确率(A)对算法进行评价。数据集ZD98、CH317和Gram796的预测成功率分别达到了 94.3%,93.8%和93.7%,Sn、S 和MMCt值均有不同程度的提升,实验结果证明提取蛋白质序列的词袋特征并送入支持向量机进行亚细胞区间预测是一种有效的蛋白质亚细胞定位预测方法。(6)结合运用粒子群算法(Particle Swarm Optimization,PSO)和细菌觅食算法(Bacterial Foraging Algorithm,BFA)改进词袋特征提取算法。词袋特征提取的参数搜索空间主要由蛋白质序列分割长度d和字典大小k构成,经PSO BFA优化的词袋特征提取算法能在更短的时间内找到一组或多组参数(d,k)使相应的词袋特征拥有较高的识别精度,在ZD98、CH317和Gram796数据集上的预测成功率分别达到了 95.9%,95.1%和 94.1%。