集成学习及其在蛋白质折叠识别中的应用研究

来源 :济南大学 | 被引量 : 0次 | 上传用户:oihvhuhuiuiui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质作为由氨基酸组成的链状生物大分子,是生命中最基本的组成部分之一,它直接参与生物结构的形成,在生物功能的过程中起着重要的作用。蛋白质折叠问题是生物信息学中的主要问题,其研究焦点是蛋白质的一级结构中的氨基酸序列最终如何折叠成三维的空间结构,也即通过蛋白质的一级结构预测蛋白质的三级结构。无论是对基础科学理论的研究,还是对人类生产生活,蛋白质折叠问题的解决都具有极其重要的意义,是一项极富挑战性的工作。 随着人类基因组计划的完成,人们得到的不同物种的DNA序列越来越多,但是蛋白质结构数据库(Protein Data Bank,PDB)的增长速度却相对缓慢,目前,已知蛋白质序列数与已知的结构数严重不平衡,蛋白质序列数据库总的数据量大大超过了结构数据库中的数据量。迄今为止,人们提出了许多蛋白质结构的测定方法,如X射线晶体学方法、多维核磁共振(NMR)、同源建模法和从头预测法等,虽然这些方法的使用使得蛋白质结构测定有了显著的进步,但蛋白质结构测定的数目还是远远不能与所确定的序列数目相比拟。 由于蛋白质折叠识别问题可以表达成标准的预测问题,因此可以用机器学习的技术进行预测或分类。集成学习作为机器学习的一个重要分支,是通过某种组合方式把一些学习器组合起来,使得组合后的学习器能够表现出比单个学习器更好的性能。本文就是在此基础上,将集成学习方法引入到蛋白质折叠识别问题中,以期获得较好的结果,为生物信息学、医药学等提供更多的技术支持。 本文在系统阐述个体学习器的原理、优化及集成方法的基础上,对蛋白质折叠识别技术进行了较为深入的研究和探讨。论文的主要工作如下: (1)在认真研究概率神经网络结构与特点的基础上,针对概率神经网络分类器中存在的缺陷和不足,利用粒子群优化算法对概率神经网络的平滑因子进行优化,解决了所有模式类都采用同一平滑因子而且一般凭经验设定的缺点,使各类模式采用不同的平滑因子σ,提高了概率神经网络的分类能力。在此基础上对概率神经网络分类器进行集成,并将其应用于蛋白质折叠问题,提出了基于概率神经网络集成(PNNE)的蛋白质折叠识别方法。实验表明,利用集成方法对蛋白质折叠子进行识别的结果优于任何单个概率神经网络的结果。 (2)根据选择性集成的思想,即从一组学习器中选择一部分组成集成可望比使用所有学习器组成集成更好,本文尝试将多种分类器单独训练,然后对每个分类器赋予一个随机的权值,并利用粒子群优化算法对权值进行优化,选择部分个体分类器进行集成,提出了基于选择性集成的蛋白质折叠识别方法。大量实验表明了该方法的实用性和有效性。
其他文献
现如今,互联网技术逐步深入到人们生活中的各个方面,与人们生活息息相关的网购行为也在网络巨头的推动下呈现出愈发强劲的趋势,其中移动端购物在网购行为中已经成为主要部分
图像分割在图像处理,图像分析,计算机视觉和模式识别等方面都是一项基础的、核心的技术。图像分割结果的好坏直接影响到这些后续高层的处理结果。阈值分割方法是最经典的图像分
OCS,Online Charging System,在线/实时计费系统,是由3GPP在TS 32.296中提出的具有开放性和通用性的实时计费系统通用参考框架,支持基于承载、会话和内容事件的统一计费。这
随着计算机网络资源相关应用重要性的快速增长,威胁这些应用的入侵行为成了一个亟待解决的关键问题。入侵检测技术是继防火墙、数据加密等传统安全保护措施后新一代的安全保
缓冲区溢出攻击是一种严重威胁网络安全与系统安全的攻击方式。由于存在缓冲区溢出漏洞的应用程序不计其数,对缓冲区溢出攻击防范技术的研究具有重要意义。 StackGuard是基
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可被理解的信息和知识的非平凡过程
随着互联网的日趋成熟,Web应用程序由于提供了丰富的用户界面和其良好的可维护性而变得越来越流行。但是,传统的Web应用程序面临着许多问题,例如较低的性能和较高的网络流量
随着人工智能的发展,图像分类技术在日常生活中逐渐扮演着重要的角色,是人脸识别、目标定位、医疗诊断等领域的核心技术。然而之前进行图像分类研究时所依赖的数据全部是经过
道路交通安全问题直接影响着社会的经济发展,人民的生活质量。高速公路交通作为道路交通的重要组成部分,因其特殊的行车环境,安全问题显得尤为突出。车辆在高速公路中高速行驶,若
航空遥感以其特有的机动灵活和反应快速的特性,在应对海上溢油等突发事件的实时动态监控中有着极其重要的作用。然而,有时会出现因溢油面积太大,一幅图像难以覆盖的情况。例如2004年12月,在珠江口发生的一起溢油事故,油污面积长9000m,宽200m。很难用一张图片来获取整个油污的全景图,需要用多幅遥感图像才能覆盖。这时如果想要得到一张油污的全景图,对多幅遥感图像的拼接工作就显得尤为重要。针对航空遥感图像