论文部分内容阅读
目前蛋白质序列的数量急剧增加,而每年已知结构的蛋白质数量却增长缓慢,因此迫切的需要开发快速、准确地计算工具来预测蛋白质的三级结构。本论文围绕蛋白质三级结构预测的几个重要方面:蛋白质特征提取方法,机器学习算法以及集成学习算法展开研究,目的是要得到一种能够快速、有效预测蛋白质三级结构的方法。用机器学习算法对蛋白质三级结构进行分类,本质上是一个模式识别问题。我们进行研究的一个基本假设是蛋白质三级结构由其氨基酸序列唯一决定,并且对于相同类别的蛋白质,其氨基酸序列存在某种内在的规律性,这种内在规律用数学公式来表达是十分困难的。用机器学习的方法来进行蛋白质三级结构预测,是一个有监督学习过程,通过已知类别的蛋白质序列样本来训练神经网络、支持向量机、贝叶斯神经网络等机器学习模型,让其学习到蛋白质序列内部的规律,从而使其在遇到未知类别的蛋白质时可以做出科学合理的判断。和其他模式识别问题一样,氨基酸序列特征提取是用机器学习算法进行蛋白质三级结构预测的首要工作。特征提取就是将用字母表示的氨基酸序列转变成具有固定维数的数据向量,以便于计算机进行处理。氨基酸特征提取是蛋白质三级结构预测中非常重要的一环,特征提取方法是否得当对于模型的预测精度有至关重要的影响。蛋白质特征提取方法有很多,主要有氨基酸组成模型、二肽模型、多肽模型、伪氨基酸组成(PseAA)、理化性质模型(PCC)和重现量化分析(RQA)等。本文通过best-first特征筛选策略得到了一种新的特征组合:理化组成模型和重现量化分析,并且对其进行了特征融合。蛋白质三级结构预测是一个多类预测问题,因此需要构建一个可以针对多类问题进行分类的机器学习模型。因为一般的机器学习算法通常都是针对两类问题进行学习,因此在搭建多分类机器学习模型的时候要考虑如何将多类问题化解成为两类问题。常见的多分类模型有一对一模型、一对多模型、二叉树分类模型和纠错输出编码。一个多分类模型需要用到多个基分类器,文中选择人工神经网络和柔性神经树作为基分类器。本文分别用纠错输出编码和树形分类模型构建多分类模型,其中用ECOC分类模型在1189数据集(同源相似性40%)上取得了57.3%的预测精度,树形分类模型在1189和640数据集(同源相似性25%)分别取得了63.6%和62.92%的预测精度。这也证明本文工作的有效性。