论文部分内容阅读
蛋白质二级结构预测,是通过氨基酸序列,预测蛋白质二级结构的过程。氨基酸序列具有不同的长度,不同的氨基酸排列顺序。实验分析表明这种差异能够形成不同的蛋白质结构。研究蛋白质的结构意义重大,不但有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质之间的相互作用,而且对生物学、医学和药学都有非常重要的作用。随着2003年人类基因组计划测序完成,更加大了未知结构的氨基酸序列与已知结构的氨基酸序列之间的数量差距,所以蛋白质结构预测迫在眉睫。本文所要研究的是如何构建一个蛋白质二级结构预测模型,使之能够更加准确的预测氨基酸对应的蛋白质二级结构。内容包括氨基酸序列的特征提取方式,神经网络结构设计及网络结构算法的选择。1.氨基酸序列特征提取。要对蛋白质结构进行预测,首先必须把氨基酸序列中的信息提取出来,即进行特征提取。选择何种提取方式非常关键,不同的特征提取出的信息大不相同,现在的方法主要从单种氨基酸,氨基酸序列,同源序列比对等不同角度对氨基酸特征进行提取。本文我们采用Psi-Blast方法,提取同源序列的氨基酸特征。实验表明,这种氨基酸特征预测正确率高,而且有扎实的理论依据。2.结构预测。结构预测实际上是根据提取出的有用信息,通过学习分析这些信息,总结出规律,实现对未知结构氨基酸序列的结构预测。对于这种信息维数高,计算量大的问题,借助神经网络是非常有效地。神经网络能够快速学习到序列中包含的特征,实现对结构的预测。而对于网络,选择何种优化算法是至关重要的,不同的算法会差生不同的时间效率,不同的算法对应不同的预测正确率。本文中我们将对各种不同的优化算法进行比较,选择出更适合的优化算法。预测过程中由于各种结构对应的数目差别较大,经常产生不均衡训练的问题,由此我们受计算智能优化算法中装袋原理的启发,我们采用有放回抽取样本的方式使各种结构对应的数目在训练过程中趋于平衡,很好的解决了训练不均衡的为题,而且提高了整个预测结构的正确率。预测过程中对于网络结构的设计也是比较重要的,一般算法采用两层神经网络预测方式,本文中我们尝试使用多层网络方式进行预测,并将多类问题设计成多个二分类问题的集成。通过试验表明,我们的结构设计模型能够更有效的提高预测的正确率。为了寻找一种更优的网络结构,本文首次将分层RBF神经网络(HRBF)应用在蛋白质结构预测中,HRBF不但能够实现对网络参数的优化,而且能够实现网络结构的优化。它不但解决了以前预测时只能提前固定网络结构和采用试探法选择隐层个数的问题,而且还能对高维特征进行选择性输入,实现了对原始输入的降维作用。