基于覆盖算法的蛋白质二级结构和结构域预测

来源 :安徽大学 | 被引量 : 0次 | 上传用户:chung51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构研究是生命科学的基础和重大核心问题之一。蛋白质的结构决定了它的功能,因此进行蛋白质结构预测对于深入了解蛋白质的功能,以及分子设计、生物制药等领域都有着很重要的现实意义。然而,随着人类基因组项目和其它大规模测序项目带来的生物学数据爆炸性的增长,传统的实验确定蛋白质结构的方法已经远远不能满足需求。因此,从理论上根据蛋白质一级序列预测其空间结构就显得非常必要。在众多方法中,神经网络作为机器学习的重要方法,在蛋白质结构预测中得到了广泛的应用,并取得了很好的效果。本文使用的是一种构造性的神经网络算法—覆盖算法,并将其应用到蛋白质二级结构和蛋白质结构域预测中,取得了很好的效果。  本文的主要工作分为以下几个部分:  1.首先概述了本课题国内外研究的现状和发展的过程。对生物信息学和蛋白质的相关内容和概念进行深入的学习,分别对二级结构预测和结构域预测的方法进行分类研究,比较各种方法的优势和不足,进而提出了使用覆盖算法及其改进算法(核覆盖算法)进行二级结构和结构域预测的思路。  2.对蛋白质二级结构进行深入分析研究,利用核覆盖算法结合Profile编码提高了二级结构预测的准确率。首先,比较分析各种机器学习的方法,选取覆盖算法的改进方法,即核覆盖算法建立预测模型,核覆盖算法是领域覆盖的一种改进算法,它将SVM中的核函数法和构造性学习的覆盖算法相融合,具有鲁棒性强,准确率高等优点。然后利用网络资源从蛋白质数据库中整理出一定数量的蛋白质序列做为实验的数据集。通过对蛋白质的序列编码仔细研究,并比较了各种编码方式的特点,采用了带有遗传信息的profile编码。在MATLAB平台上采用核覆盖算法进行蛋白质二级结构分类研究,并与其它方法进行比较分析,结果表明了核覆盖算法在蛋白质二级结构预测中的可行性和有效性。  3.结构域的识别是蛋白质研究中一个极具挑战性的课题,我们尝试首次将覆盖算法应用于结构域预测中,仅通过挖掘与分析序列本身所包含的信息来预测结构域位置的划分。通过从已有的结构域数据库中选取一定数量的序列作为实验的数据集。利用覆盖算法进行训练建立预测模型,对预测的初步结果进行后处理与分析,最终确定结构域的划分位置。我们的工作重点是分析氨基酸序列所包含的可挖掘的属性信息,通过对每个属性单独进行编码预测并尝试将多个属性组合编码预测,从生物学的角度分析比较实验结果,寻找到最有助于提高预测准确率的属性组合。实验结果验证了覆盖算法在蛋白质结构域预测中的可行性。将覆盖算法引入结构域预测中为蛋白质结构域位置的划分提供了一种新的思路与方法。
其他文献
作为一种新兴技术,无线传感器网络(Wireless Sensor Network, WSN)在近几年内发展迅速,被广泛应用于环境监测、交通控制、智能房屋、情报搜集等生产、生活、国防各个重要领域
本文讨论了多源数据融合中的目标识别技术,包括辐射源识别和平台识别。针对雷达辐射源识别,本文提出了人工神经网络,模板/模糊匹配方法和D-S证据理论结合起来的雷达型号三级识别
计算机博弈(Machine Game)一直以来都是检验人工智能发展水平的试金石,以研究计算机博弈为切入点,可以充分提高各种人工智能的理论水平。  以目前计算机博弈程序的发展水平
随着计算机、微电子和通信技术的不断发展,计算机、多媒体和通信等传统产业逐渐相互渗透、融合。音频、视频和图像信息等的传输和交流,逐渐成为了人们通信的重点,音视频编解
随着科技的不断进步,在许多领域都有自动化实现人脸识别的应用,这也使得人脸检测成为模式识别的一个研究热点。虽然现在已经出现了可以运用在实际应用中的算法,但是这些算法仍然
煤矿巷道地质素描图是指导煤矿日常安全生产的一类重要的专业基础图件。目前煤矿生产企业在编制井下巷道地质素描时主要采用手工制图方式。这种方式不仅存在着绘图速度慢、绘
随着计算机应用的普及,尤其是30年来数据库技术的广泛使用,以及近10年来互联网应用的不断深入,数据的累积正以爆炸性的速率发生。人们已经评估出世界上信息的数量每两三年翻
现有信息网络基本上是一种网络支持一种服务的模式,无法满足网络和服务的多样性需求。一体化网络引入接入标识和交换路由标识,建立接入标识和交换路由标识分离映射机制,这种标识
随着计算机和网络技术的发展,信息安全成为愈加重要的一个研究领域。传统的信息安全技术包括防火墙和入侵检测等,防火墙技术能够隔离非法访问,但一旦被攻破即失效,而入侵检测
从计算机诞生之日起,资源的稀缺性便一直困扰着计算机专家们,资源分配问题亟待解决。传统的资源分配方法大多采用工程控制手段,通过进行全局的计算,将资源分配到最适合的地方