基于机器学习的蛋白质折叠模式预测研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:landywww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的三维结构决定其生物功能,折叠模式是蛋白质空间拓扑的一种分类表达。自然界中的蛋白质结构约十多万种而折叠模式的总数约一千多种。因此,蛋白质折叠模式预测研究具有重要的科学意义和应用价值。   SCOP数据库是人工分类的蛋白质结构分类数据库。本文对SCOP数据库中蛋白质的折叠模式进行解读,分析研究氨基酸串属性与折叠模式的关系,并构造分类器对氨基酸串的折叠模式进行预测。   首先,从SCOP数据库中构造了两种训练集,对训练集的氨基酸串根据生化知识分析抽取相关属性,如氨基酸串的折叠模式、长度、频率、疏水等。构造相应的SVM分类器,对一系列折叠预测的开放测试集进行测试,并对预测结果进行分析。   面向从头预测问题对训练集重新提取属性,完整地保留氨基酸串属性,分别构造了SVM分类器和贝叶斯分类器,对测试集进行预测,并分析预测结果的有用性。然后将折叠预测的结果应用于从头预测中,为从头预测提供良好的片段库,以提高从头预测的精度。   本文详细的实验结果表明,测试集折叠模式的预测准确率最高可达到84.6154%,基于机器学习的折叠模式预测能够为从头预测提供有价值的支持。
其他文献
随着Internet环境的不断复杂以及数量的不断增加,要求防火墙、VPN、PKI、入侵检测等技术更加的快速、高效。模式匹配能有效支持网络内容安全并提高网络设备的性能,是高速网络
本文以二维骨组织病理切片显微图像为研究对象,通过对目标图像进行分析与计算,可获得骨组织结构的计量参数,从而进一步得到骨组织形态结构变化状况。  计算机辅助识别切片的具
在电力系统中,许多功能都与时间密切相关,如果时钟不同步,系统时钟就会混乱,很多事情就会变得杂乱无章,严重的则导致整个电网瘫痪,因此电网系统中的时钟同步变得越来越重要,整个系统
安全组播是组播技术的研究热点之一,其核心就是组播密钥管理问题。组播密钥管理主要是为了解决安全组播中两个重要的难点—前向及后向安全,合法的组成员在退出组后不能再接收
如何在海量的XML数据中检索到人们需要的信息是当前学者研究的一个热点问题。结构连接是XML查询的核心操作,在对结构连接算法的改进方面有了大量的研究成果。为提高查询效率,
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别(Named Entity Reeognition, NER)的主要任务是识别出文本中出现的名字实体和有意义的数量短语并加以归
学位
随着无线局域网的快速发展,它自身存在的安全性问题,也慢慢的引起了人们的关注。入侵检测系统作为信息安全的重要组成部分,已经成为当前网络安全领域的研究热点。尽管有线网络的
随着社会的信息化发展,人们可以通过网络获得大量的信息资源和服务,人类进入信息化社会,这使得社会的开发程度进一步加大,与之俱来的是信息安全问题,信息安全已成为人们在信
国际可信计算组织TCG(TrustedComputingGroup)推出了以可信平台模块TPM(TrustedPlatformModule)为核心的可信计算平台规范。TPM是一种具有密码功能、实现可信存储、防篡改的
学位
基于核的学习算法是一种新兴的重要的分类技术,近年来己被广泛研究,并且成功应用于模式识别.图像处理等等相关领域。传统的核方法通常仅使用标准的核函数,如线性核和RBF核,因此
学位