基于相似性比对改进KNN的蛋白质亚细胞定位预测研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:jerryby001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的功能与其所处的亚细胞区间紧密相关,通过对蛋白质的亚细胞区间预测研究能够帮助我们了解蛋白质的功能信息,对于生物研究有重要意义。传统通过实验的方式获得蛋白质亚细胞区间信息不仅耗时久、成本高,而且不利于大量蛋白序列的区间定位,因此需要找到一种高效的蛋白质亚细胞区间预测方法。本文中介绍了蛋白序列的特征提取算法并对传统K最近邻(k-NearestNeighbor,KNN)分类器进行改进,提出一种基于相似性比对改进KNN的蛋白质亚细胞分类预测算法,通过AdaBoost和Bagging进行集成预测,取得较好的实验效果,本文主要工作如下:本文主要介绍了氨基酸组成、二肽、伪氨基酸组成三种特征提取算法;除了公共数据集ZD98,CH317,还构建了新的数据集Gram1253;对传统KNN分类器进行改进,使用Blast比对寻找最相似序列完成KNN算法的决策,提出一种新的分类预测算法:相似性比对KNN预测算法,在三个数据集上进行Jackknife检验,成功率分别为93.9%,91.5%和92.5%;随后引入Hadoop分布式计算框架对算法进行优化。为了进一步对预测算法进行研究,本文采用AdaBoost和Bagging算法对多个相似性比对KNN分类器进行集成后对蛋白序列的亚细胞区间进行预测,三个数据集在Jackknife检验下,AdaBoost的预测成功率分别为94.9%,92.4%和93.1%。由于ZD98和CH317数据集区间分布不均衡,Bagging集成算法的预测准确率低于相似性比对KNN算法,为89.8%和87.7%。但在Gram1253上实验效果较好,预测准确率达到92.9%,实验结果表明AdaBoost和Bagging集成分类预测方法是一种较为有效的蛋白质亚细胞区间预测方法。
其他文献
新一代网络带宽越来越高,通信具有更小延迟和更大吞吐量,校园网和园区网的骨干网络网速已提高至Gbps甚至10Gbps级,分布于骨干网上的传统网络入侵检测系统(NIDS)与网络入侵防
随着我国经济的快速发展,城市化进程不断加快。伴随着各种交通工具方便人们的出行,交通事故频发也给人们的生命财产安全带来了巨大的损失。为了提高驾驶人的驾驶水平,解决现
随着网络传输和处理能力的大幅提高以及音频和视频压缩技术的发展,网络音频、视频应用成为基于网络的重要应用之一。组播技术通过不同于传统单播和广播的转发技术和QoS机制,
脑机接口(Brain-Computer Interface,BCI)是近年来发展的一门新兴的、多学科交叉的人机接口技术。它是一种不依赖于人正常外围神经和肌肉组织而构成的通讯系统。基于脑电图(E
女书是世界上最具性别意识的文字,有着重要的非物质文化遗产保护价值。到目前为止,女书文献主要依靠手工抄写的方式传承,而随着女书传人的相继去世,女书文献的收集和整理变得
随着互联网的日益增长,Web已经成为人们获取信息的重要途径。Web分为Surface Web和Deep Web两大类。相对而言,Deep Web蕴含了更为丰富的资源,而且价值更高。然而Web数据库分
搜索引擎的发展使得Web信息越来越容易获取。传统Web的优势在于海量数据,而语义Web则能够将信息尽可能表达为计算机程序可理解的格式。用户所需的信息是和格式无关的,数据可能
医疗发展一直是人们的热点关注话题,便捷测试试剂条的出现为医疗提供了不少便捷。医疗试剂条都经过处理,不同的试剂条检验的物质不同,这些试剂条能够快速地与唾液、血液、尿
随着网络技术的不断发展,网络规模日益扩大。对网络流量进行监测、管理和分析网络流量,对于网络管理员了解网络服务的具体情况具有重要的意义。从网络管理的角度来看,被管网
随着社会经济的飞速发展,城市中各种高层建筑物、超大型商场以及购物中心、大型娱乐城、大规模体育运动场等一系列人员聚集场所应运而生。然而这些虽然满足了人们的多元化需