论文部分内容阅读
近年来,伴随着蛋白质序列提取技术的发展,蛋白质序列的数量迅猛增长。由于大量的研究证明,特殊蛋白质有很重要的生物学功能,和众多人类疾病有着密切的联系。为了从大规模的数据集中识别出特殊功能的蛋白质序列,计算机技术的方法在特殊蛋白质结构识别中得到广泛应用,尤其是基于机器学习的计算方法被众多研究人员进行研究。当前关于特殊蛋白质识别的机器学习方法仍然存在着很多精度提升的空间。本论文从以下两个方面提高特殊蛋白质识别精度:(1)特征提取;(2)分类器的选择。特征提取方面,将多种性能较好的特征集进行结合,提出并使用降维方法——MRMD(MaxRelevanceMaxDistance)选择更优秀的特征集,通过对比实验结果,对MRMD的性能进行分析。分类器选择方面,本论文将对BP神经网络(back propagationneural network,BP-NN)和支持向量机(Support Vector Machine,SVM)的参数进行优化,将优化之后的分类器作用于特殊蛋白质的识别,并且多种性能优秀的分类器被选择作为对比,分析优化后的分类器的性能。在miRNA识别方面,通过对比分析实验结果发现,使用优化之后的BP-NN的方法,结合从miRNA序列中提取的98维特征集对miRNA进行识别,精度和召回率分别为96.00%和96.67%,比其它分类器的精度最高提高13.64%。在细胞因子识别部分,一方面综合144次实验的结果发现,使用MRMD降维之后的特征集,在细胞因子识别方面拥有较高性能。另一方面结合性能较好的2种分类器和3种特征集,综合分析后发现,在细胞因子识别方面,性能表现最好的三种组合为473D+libSVM_Fscore、MRMD+libD3C、PCA+libSVM_Fscore。