论文部分内容阅读
随着人类基因组计划的完成以及生物测序技术的发展,大量的蛋白质序列信息数据不断涌现出来。然而人们对蛋白质高级结构和功能的认识还不够,远远落后于对蛋白质序列的认识。同时通过传统的生物实验方法已经无法满足海量数据的处理需求,因此非常有必要探讨借助计算机的快速计算能力,来进行蛋白质结构和功能的理论研究,这也是摆在生命信息科学工作者面前的极具挑战的任务。蛋白质作为生命活动的主要表现者和承担者,通过研究其结构和功能的相互作用来揭秘生命的内在奥秘,是新世纪生物信息学研究的核心内容。而蛋白质结构类是人类研究蛋白质结构和功能的关键,所以本论文的主要内容是围绕着蛋白质结构类预测这个问题。主要从以下三个方面进行展开,蛋白质序列特征信息的提取及组合、蛋白质序列多特征信息的特征挑选以及基于机器学习的蛋白质结构类预测。为了进一步提高蛋白质结构类的预测精度,本研究主要从以下三个方面进行了尝试,现将本研究的主要工作及其创新之处总结如下:1)蛋白质序列特征信息的提取及组合特征信息的提取的好坏直接影响蛋白质结构类预测精度,为了更加全面的描述一条给定的蛋白质序列,本文提出了一套能够全面反映蛋白质序列的特征信息。具体包括以k-字统计频率和k-片段位置分布两种特征提取方法分别提取了蛋白质一级序列、蛋白质物理化学性质序列以及蛋白质二级序列的频率和位置信息。并将这些不同性质的特征信息进行融合,有效的克服了特征信息单一的缺点,为提高蛋白质结构类的预测精度打下了坚实的基础。2)蛋白质序列多特征信息的特征挑选虽然融合越多的不同性质的特征信息能够更加全面的描述蛋白质序列,但是实际情况是并不是特征维数越多,分类的精度就会越高。相反,由于高维的特征信息中包含的噪声和冗余性也越多,增加了分类模型的计算量和复杂度,反而不利于提分类器的分类精度和其推广能力。所以,本文采用基于遗传算法的特征信息选择算法,并将其应用于蛋白质序列的特征信息挑选。遗传算法的主要思想是“优胜劣汰,适者生存”,那些适应度差的特征随着迭代次数的增加就会被逐步丢弃,而那些适应度好的特征则会被保留下来,继续繁衍后代,经过遗传算法选择后的特征信息集中既保留了原特征信息集中的绝大部分信息,又降低了特征信息集的维数,有利于分类模型性能的改善。3)基于机器学习的蛋白质结构类预测在蛋白质结构类的预测研究中,机器学习算法是一个非常重要的环节,直接关系到结构类预测的成败。在本研究中,首先主要介绍了常见的三种单分类算法,分别为人工神经网络、贝叶斯算法以及支持向量机。但传统的单分类器算法存在着一些不足,在所有的单分类器算法中,没有任何一种分类算法能够对任意给定的的样本特征都具备很好的区分能力。紧接着介绍了四种常见的多分类器融合算法,分别为多数投票法、贝叶斯规则、平均值法和加权平均值法。但是常见的多分类器融合算法的单个分类器之间的决策结果是相互独立的,并没有通过单分类器之间的充分协商,造成了一些决策信息的丢失。鉴于此,本研究提出了一种新的多分类器融合算法—Ma_Ada算法。实验结果也表明,Ma_Ada多分类器融合算法能够较大程度的提高蛋白质结构类的预测精度。综上所述,本研究从生物信息学的角度出发,较为系统地解决了蛋白质序列信息提取及多特征信息融合、蛋白质序列多特征信息的特征挑选和蛋白质结构类预测等信息处理问题。这些研究成果有助于促进蛋白质的结构及功能的更进一步研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。