基于融合特征的蛋白质亚细胞定位预测

来源 :湖南大学 | 被引量 : 0次 | 上传用户:boypoe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,越来越多的DNA序列和蛋白质序列被测定出来,单纯的生物实验已经无法填补大量序列信息与严重不足的蛋白质功能注释之间的空隙,而且既耗时,成本又高,所以迫切的需要通过计算的方法来预测蛋白质功能。然而,另有生物学研究表明,蛋白质功能与蛋白质亚细胞定位是密切相关的,蛋白质亚细胞定位信息可以为蛋白质功能的研究提供有用的线索。因此为了进一步了解蛋白质的功能,识别蛋白质的亚细胞定位成为了蛋白质组学的一个重要研究方向。本文主要围绕这一主题,针对蛋白质序列的编码方法和分类预测算法两方面进行了研究,并在不同的数据集上分别进行了测试和分析。本文的主要创新工作概括如下:本文提出了一种新的蛋白质序列编码方法,该方法由三个序列特征融合而成,第一个序列特征为传统的20维的氨基酸基本组成,第二个序列特征为氨基酸位置信息,主要提取了每个氨基酸残基在序列中的位置信息,第三个序列特征为氨基酸局部顺序信息,我们将每个氨基酸残基用五位ASCII码表示,那么每条L长度的蛋白质序列,局部顺序信息可以用一个5行L列的矩阵表示,之后我们再计算该矩阵每行四联体出现的频率。在本文中,我们采用最近邻分类算法作为预测分类工具,在两个不同的凋亡蛋白数据集上进行测试,并在该这两个数据集上进行自检验和刀切法检验,由实验结果可知,此方法获得了较好的预测效果,与其他方法相比,也具有明显的优势。
其他文献
随着互联网的不断发展,网络上的信息量也在不断的增长,其中各种各样的学习资源也在不断增加,这为人们学习提供了充足的资源,但同时也为用户获得准确的资源带来了很大的难度。
交通标志检测与识别作为辅助驾驶及智能交通系统的一部分,具有广泛的应用前景。由于场景的复杂性以及交通标志的多样性,目前对交通标志的自动检测和识别水平还不能满足实际的
随着互联网的迅速普及,Web上的垃圾网页也逐渐增多,这极大的影响了搜索引擎的精度和效率,如何识别垃圾网页已经成为互联网搜索所面临的最严峻的挑战之一。通过对垃圾网页深入
近年来,车载自组网(VehicleAd Hoc Network,简称VANET)引起世界各国政府、学术界以及工业界的广泛关注。交通安全信息传输是车载自组网中一种重要的应用。许多交通安全应用需要交
卷积神经网络用于图像识别分类是深度学习中有关图像处理的一个重要应用,卷积神经网络一个比较显著的优点是能够直接使用图像进行卷积操作,并从图像的像素中提取图像的特征,而且
中国是一个发展中的大国家,采矿业一直是其非常重要的一个行业。但是其中的采矿效率低下,矿工人身安全难以保证等问题一直难以解决。近些年,人们提出了数字矿山的概念,数字矿山主
知识是人类智能的载体和体现形式。对人类智能的研究就是对知识的探索和发现。知识的不确定性,导致了不确定性人工智能的研究。不确定性知识的表示和处理是不确定性人工智能研
语义Web不精确本体作为支持语义Web实际运行的知识库,定义了领域内共同认可的知识,反映了人类对客观世界认知的不精确性特征。   语义Web不精确本体的研究主要沿着模糊性
在异常检测技术中,采用系统调用作为训练数据的方法目前受到了广泛的关注,其基本思想是通过分析系统调用是否出现异常来判断整个计算机系统是否出现异常。具体过程是先对正常的
生物监测技术是用生物评价技术和方法对环境中某一生物系统的质量和状况进行测定,已被广泛应用于水质安全预警与水质监测系统中,其通过水生指示物的生理特征和行为反应来对水体