基于多特征融合的蛋白质三级结构预测

来源 :济南大学 | 被引量 : 3次 | 上传用户:yhl_2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前蛋白质序列的数量急剧增加,而每年已知结构的蛋白质数量却增长缓慢,因此迫切的需要开发快速、准确地计算工具来预测蛋白质的三级结构。本论文围绕蛋白质三级结构预测的几个重要方面:蛋白质特征提取方法,机器学习算法以及集成学习算法展开研究,目的是要得到一种能够快速、有效预测蛋白质三级结构的方法。用机器学习算法对蛋白质三级结构进行分类,本质上是一个模式识别问题。我们进行研究的一个基本假设是蛋白质三级结构由其氨基酸序列唯一决定,并且对于相同类别的蛋白质,其氨基酸序列存在某种内在的规律性,这种内在规律用数学公式来表达是十分困难的。用机器学习的方法来进行蛋白质三级结构预测,是一个有监督学习过程,通过已知类别的蛋白质序列样本来训练神经网络、支持向量机、贝叶斯神经网络等机器学习模型,让其学习到蛋白质序列内部的规律,从而使其在遇到未知类别的蛋白质时可以做出科学合理的判断。和其他模式识别问题一样,氨基酸序列特征提取是用机器学习算法进行蛋白质三级结构预测的首要工作。特征提取就是将用字母表示的氨基酸序列转变成具有固定维数的数据向量,以便于计算机进行处理。氨基酸特征提取是蛋白质三级结构预测中非常重要的一环,特征提取方法是否得当对于模型的预测精度有至关重要的影响。蛋白质特征提取方法有很多,主要有氨基酸组成模型、二肽模型、多肽模型、伪氨基酸组成(PseAA)、理化性质模型(PCC)和重现量化分析(RQA)等。本文通过best-first特征筛选策略得到了一种新的特征组合:理化组成模型和重现量化分析,并且对其进行了特征融合。蛋白质三级结构预测是一个多类预测问题,因此需要构建一个可以针对多类问题进行分类的机器学习模型。因为一般的机器学习算法通常都是针对两类问题进行学习,因此在搭建多分类机器学习模型的时候要考虑如何将多类问题化解成为两类问题。常见的多分类模型有一对一模型、一对多模型、二叉树分类模型和纠错输出编码。一个多分类模型需要用到多个基分类器,文中选择人工神经网络和柔性神经树作为基分类器。本文分别用纠错输出编码和树形分类模型构建多分类模型,其中用ECOC分类模型在1189数据集(同源相似性40%)上取得了57.3%的预测精度,树形分类模型在1189和640数据集(同源相似性25%)分别取得了63.6%和62.92%的预测精度。这也证明本文工作的有效性。
其他文献
基于佳美视觉公司的硬件环境,论文研究了玻璃瓶在线检测系统的缺陷检测方法,分别针对玻璃瓶瓶口和瓶底的图像特点设计不同的检测算法。  首先对瓶口和瓶底的图像进行预处理,包
两维下料问题是考虑怎样确定一个下料方案,把板材切割为所需的毛坯,使损耗板材的总面积最小。问题的解是一个下料方案,其中包括一组排样方式,因此解的好坏也部分取决于排样方
作为一个近年来兴起的概念,云计算是数十年来虚拟化、分布式计算、效用计算技术研究以及网络和软件服务的发展的结晶。云计算加速了IT产业的变革,用户按需得到服务,促进了面
随着互联网技术的发展,Web服务以其松耦合性、平台无关性和开放性等特点已经成为一个崭新的分布式计算模型和一种新兴的互联网应用模式。由于互联网上的Web服务数量越来越多,为
随着Internet与多媒体技术的快速发展,数量庞杂的多媒体信息涌入到互联网。人们在享受大量信息带来的便利的同时,随之也产生了诸多问题,如非法复制,非法修改,未授权传播等。
随着计算机科学技术的飞速发展和广泛应用,网格生成技术已成功应用于许多工程领域。作为网格生成技术的热点,三维四面体网格生成算法在有限元分析、机器人和生物医学、科学计算
随着网络的普及和计算机、数字技术的迅猛发展,越来越多的数字产品通过网络媒介广泛传播,在极大的方便人们获取和使用的同时,也带来了诸如产品的非法拷贝、恶意篡改和版权保
随着Internet技术的飞速发展以及基于Web的Internet服务的广泛应用,管理系统网络化已成为现代社会发展的大趋势,但同时也面临着巨大的安全威胁。如何保证并提高系统中重要数据
随着教育信息化的不断发展和互联网技术在教育行业的深度应用,许多高校基于云计算和大数据技术,在智慧校园建设上取得了很大的进步。智能化应用系统的建设和运行,为在校师生
近年来,火焰识别技术由早期的基于传感器的识别方法发展成基于图像特征的识别方法。基于图像特征的火焰识别方法一定程度上克服了对火焰环境在温度和人力等方面的依赖性,同时提