智能分类算法及其在蛋白质相互作用预测中的应用研究

来源 :济南大学 | 被引量 : 1次 | 上传用户:lvchao222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的主要执行者,其通过相互作用来完成生命活动,因此只有对蛋白质进行整体,网络水平上的研究,才能真正揭示生命现象的分子机制,这就导致了蛋白质组学的出现。蛋白质组学是研究一个细胞或生物组织在一定条件下所有蛋白质的结构与功能,以及这些蛋白质与其他分子之间的相互作用关系。因此检测蛋白质之间的相互作用成为蛋白质组学的重要研究课题之一。   由于传统检测蛋白质相互作用的实验方法耗费大量的人力物力,而且具有较高的假阳率和假阴率,因此采用计算方法对蛋白质相互作用进行预测变得越来越重要。本文主要研究基于蛋白质的一级序列信息,利用分类算法,对蛋白质之间的相互作用进行预测。因为蛋白质的氨基酸序列决定结构,结构决定性质,所以蛋白质一级序列中含有的信息已经足够用来预测蛋白质相互作用,并且这种方法具有较好的通用性,仅根据蛋白质的序列信息就可以进行预测。本文的工作主要包括以下几个方面:   (1)提出了一种基于改进的伪氨基酸组成特征提取算法的蛋白质相互作用预测方法。由于蛋白质的功能可能受到多种不同的氨基酸属性的影响,所以需要整合与蛋白质相互作用相关的氨基酸性质来更加有效的表示蛋白质序列的特征。因此首先利用基于Geary自相关函数的特征提取算法,对氨基酸属性与蛋白质相互作用的相关性进行评价,然后根据评价结果选择相关的属性整合到基于Minkowski距离的伪氨基酸特征提取算法中提取出特征,并使用随机森林作为分类器进行学习预测。在幽门螺旋菌蛋白质相互作用数据上进行实验,该方法相对于传统方法取得了很好的效果,提高了预测正确率。   (2)提出了一种基于n-Diad特征提取算法和随机森林的蛋白质相互作用预测方法。采用了n-diad特征提取算法从蛋白质序列中提取特征,所提取的特征中不仅含有氨基酸的同义变异信息,还包括了蛋白质序列中间隔不同距离的氨基酸之间的疏水作用信息。由于随机森林参数较少,泛化能力较好,因此被选作分类器进行学习和预测。同时,由于训练数据集的质量对分类器的效果有较大的影响,我们选取了DIP数据库中的酵母蛋白质相互作用数据作为正集,然后基于不同的生物学原理,构造了四种负集,用来比较不同的负集生成方法对分类效果的影响。通过实验表明,ScoNeg数据集综合了多种生物信息源,具有较多的生物意义,所训练出的随机森林分类器预测效果最好。   (3)提出了一种基于Moran-PseAA特征提取算法和改进的K近邻分类器的预测模型来预测蛋白质相互作用。蛋白质序列使用Moran-PseAA特征提取算法来编码,这种算法使用Moran相关函数来计算蛋白质序列的顺序信息和氨基酸的疏水作用信息,然后采用K近邻算法作为分类器,同时根据蛋白质相互作用的特点,提出新的距离函数来计算两个蛋白质对之间的距离。在酵母蛋白质相互作用数据上进行实验,获得了较好的预测准确率。   (4)提出了一种基于蛋白质表面热点氨基酸性质和相互作用的蛋白质之间存在共进化现象的预测方法。由于自然选择压力,相互作用的蛋白质在进化过程中呈现出共进化的特征,因此提出co-Diad特征提取算法来表示两个蛋白质之间的共进化信息。另外,由于两个蛋白质之间发生物理相互作用所需要的结合能量是由少数分布在蛋白质表面的热点氨基酸提供,因此在co-Diad提出的特征中,只有包含热点氨基酸信息的特征分量才与蛋白质相互作用相关,所以选取多表达式编程作为分类器,在学习过程中自动提取出有效的特征分量。由于单个多表达编程分类器可能仅提取出含有某一类热点氨基酸信息的特征,而丢失了含有其他类型热点氨基酸信息的特征,因此我们提出了集成多表达式编程分类器,将多个多表达编程分类器整合为一个集成分类器进行预测。在酵母蛋白质相互作用数据上进行实验,表现出较好的分类预测效果。
其他文献
人类主要通过视觉系统来获取信息和感知世界,而通过视觉获取的信息相互影响、相互融合从而帮助人们从复杂的场景中快速精确地定位自己感兴趣的目标或区域。在计算机视觉研究领
无线网络作为一种新的互联网接入方式,因其灵活方便的特点已被应用在更多的领域。同时无线网络的安全和对网络的管理成为当前研究的热点。据资料分析,目前所取得的研究成果大
人脸识别技术是生物特征识别技术在身份认证中最主要的方法之一。基于人脸识别的身份认证具有重要的理论意义和应用价值,对人脸识别方法的研究已成为当前模式识别与人工智能
学位
自主式移动机器人技术近年来得到了迅速的发展,移动机器人是具有感知、决策和运动能力的智能机构,该技术体现了信息技术和人工智能技术的发展水平。移动机器人导航是移动机器
近年来,随着互联网技术的飞速发展和网络数据库资源的日益丰富,论文信息的获取越来越便利。科研人员可以很方便地检索到各种需要的学术论文,协助研究工作。但与此同时,这也方
视觉导航技术已经成为了自主车导航的关键技术,但容易受外界环境条件变化的影响如天气、光线等,其鲁棒性一直是一个难点。另外,该技术对视觉信息处理的实时性要求比较高。为
模型驱动架构(MDA)是由对象管理组织(OMG)提出的一种软件开发框架,其核心思想是将实现细节与业务功能分离,把软件开发的注意焦点提升到更高的抽象层次。它基于统一建模语言(UML
自然界的很多行为都表现为群体性。利用这些群体行为来建立的模型称为群体智能算法。群体智能算法中有许多算法,微粒群优化算法就是其中一个,它已经被广泛应用于很多优化问题
随着计算机及网络技术的发展,通过网上教学系统实现学生课外学习和师生间的交流互动已成为课堂教学一种很好的辅助手段。网上教学系统为学生构建自主的学习和交流环境,有助于