论文部分内容阅读
随着测序技术的快速发展,蛋白质序列数量与已测定结构与功能的蛋白质数量的差距越来越大,迫切需要通过理论计算方法实现蛋白质结构功能的预测。目前,许多有效的方法被提出来研究蛋白质序列、结构和功能之间的关系,但不同方法在解决蛋白质结构功能研究中具有偏好性。因此,本文主要围绕蛋白质结构功能研究中方法展开,系统地比较分析了不同的特征提取方法、特征挑选方法和预测算法在蛋白质结构类、蛋白质紊乱、蛋白质分子伴侣、蛋白质溶解度和RNA结合蛋白质的预测中效率。主要研究内容如下:1、简要介绍了蛋白质研究的研究背景及意义、蛋白质的组成、结构和物理化学性质,并简述了常用的数据库及本文采用的数据集,为本文的研究提供了理论和数据基础。2、分析比较了蛋白质结构功能预测中氨基酸约化和特征提取方法。根据522种氨基酸性质将20种氨基酸约化成k类,提取蛋白质6类不同信息,结合支持向量机比较分析了氨基酸约化与信息提取方法在蛋白质结构功能预测中的效率。结果表明,在蛋白质结构类和蛋白质分子伴侣预测中,最好采用氨基酸的转向倾向类性质约化20种氨基酸,再提取蛋白质的顺序特征,而蛋白质溶解度的预测则偏向于蛋白质的RCTD特征提取方法。3、分析比较了蛋白质结构功能预测中特征挑选方法。本章选取了基于互信息的特征挑选方法、基于支持向量机的特征挑选方法等16种,结合K近邻预测算法比较分析了特征挑选方法在蛋白质结构功能预测中的效率。结果表明,基于非线性支持向量机的特征挑选方法在蛋白质结构类预测、蛋白质溶解度预测、蛋白质分子伴侣预测和蛋白质溶解度预测中表现最好,经过挑选后特征的准确率提升了13.16%-71%,尤其是蛋白质的k-mer特征和PSSM特征。4、分析比较了蛋白质结构功能预测中预测算法。本章选取了线性判别分析算法、主成分分析判别算法等7种预测算法,并比较分析了不同预测算法在蛋白质结构功能中效率。结果表明,在蛋白质结构类预测中,SVM预测算法表现最好,尤其与蛋白质PRseAAC特征结合,预测准确率达到99.15%;选择PCADA、CART、PLSDA、KNN或者SVM算法可以较准确地预测蛋白质的分子伴侣;在蛋白质紊乱预测中,KNN预测算法与蛋白质RCTD特征结合表现最好,准确率达到了94.75%;蛋白质溶解度预测应选取PSSM特征,结合PLSDA和PCADA预测算法;而在预测RNA结合的蛋白质时,采用GO特征和CART算法的组合或者GO特征和PLSDA算法的组合,都能获得较好的预测准确率。