论文部分内容阅读
蛋白质作为由氨基酸组成的链状生物大分子,是生命中最基本的组成部分之一,它直接参与生物结构的形成,在生物功能的过程中起着重要的作用。蛋白质折叠问题是生物信息学中的主要问题,其研究焦点是蛋白质的一级结构中的氨基酸序列最终如何折叠成三维的空间结构,也即通过蛋白质的一级结构预测蛋白质的三级结构。无论是对基础科学理论的研究,还是对人类生产生活,蛋白质折叠问题的解决都具有极其重要的意义,是一项极富挑战性的工作。
随着人类基因组计划的完成,人们得到的不同物种的DNA序列越来越多,但是蛋白质结构数据库(Protein Data Bank,PDB)的增长速度却相对缓慢,目前,已知蛋白质序列数与已知的结构数严重不平衡,蛋白质序列数据库总的数据量大大超过了结构数据库中的数据量。迄今为止,人们提出了许多蛋白质结构的测定方法,如X射线晶体学方法、多维核磁共振(NMR)、同源建模法和从头预测法等,虽然这些方法的使用使得蛋白质结构测定有了显著的进步,但蛋白质结构测定的数目还是远远不能与所确定的序列数目相比拟。
由于蛋白质折叠识别问题可以表达成标准的预测问题,因此可以用机器学习的技术进行预测或分类。集成学习作为机器学习的一个重要分支,是通过某种组合方式把一些学习器组合起来,使得组合后的学习器能够表现出比单个学习器更好的性能。本文就是在此基础上,将集成学习方法引入到蛋白质折叠识别问题中,以期获得较好的结果,为生物信息学、医药学等提供更多的技术支持。
本文在系统阐述个体学习器的原理、优化及集成方法的基础上,对蛋白质折叠识别技术进行了较为深入的研究和探讨。论文的主要工作如下:
(1)在认真研究概率神经网络结构与特点的基础上,针对概率神经网络分类器中存在的缺陷和不足,利用粒子群优化算法对概率神经网络的平滑因子进行优化,解决了所有模式类都采用同一平滑因子而且一般凭经验设定的缺点,使各类模式采用不同的平滑因子σ,提高了概率神经网络的分类能力。在此基础上对概率神经网络分类器进行集成,并将其应用于蛋白质折叠问题,提出了基于概率神经网络集成(PNNE)的蛋白质折叠识别方法。实验表明,利用集成方法对蛋白质折叠子进行识别的结果优于任何单个概率神经网络的结果。
(2)根据选择性集成的思想,即从一组学习器中选择一部分组成集成可望比使用所有学习器组成集成更好,本文尝试将多种分类器单独训练,然后对每个分类器赋予一个随机的权值,并利用粒子群优化算法对权值进行优化,选择部分个体分类器进行集成,提出了基于选择性集成的蛋白质折叠识别方法。大量实验表明了该方法的实用性和有效性。