基于集成学习的蛋白质亚细胞定位预测

来源 :济南大学 | 被引量 : 4次 | 上传用户:xiexieni777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的成功实施和现代分子生物学的蓬勃开展,给人们留下了海量的生物学数据,并把人们带入了后基因组时代。由于后基因组时代生物学数据的大规模性,及数据之间关系的复杂性,使得人们不得不借助计算机来存储和处理这些海量数据。这样通过对生物学实验数据的获取,加工,存储,检索与分析来揭示海量的生物学数据中所蕴含的普遍的生物学意义为主要目的的生物信息学应运而生。很早就有文献研究表明:蛋白质序列相似程度越高,它们就越可能出现在同一个亚细胞定位中。因为同源蛋白的序列具有很高的相似性,并且具有相同或者相似的生物学功能,所以其亚细胞定位也具有相似性。随着人类基因组的测序成功,公用蛋白质数据库中蛋白质的数量和蛋白质功能注释之间的矛盾日益尖锐。然而由于生物学数据的海量性,基于传统的生物学的实验手段去挖掘这些数据海洋中规律性显然是费时、费力和高代价的(time-consuming and costly)。因此,开发能够直接从蛋白质原始序列中准确预测蛋白质空间结构、亚细胞定位和蛋白质蛋白质相互作用的算法被提上日程。蛋白质亚细胞定位和亚核定位预测是后基因组时代生物信息学中的重要研究内容。基因的表达使得蛋白质在核糖体内(细菌在细胞质中合成)的合成成为可能,也使得遗传信息进行传递。蛋白质合成后必须被转运的特定的亚细胞器中,才能正常发挥其生物学功能,使整个生命机体正常运转。如果合成的蛋白质的定位与其天然定位发生偏差,细胞的各种功能及其构成的生命机体将遭受重大影响。本文在前人研究的基础上,从组成蛋白质一级结构的氨基酸原始序列出发,提出利用进化模糊K-近邻算法(Evolutionary Fuzzy K-Nearest Neighbor, EFKNN)及其集成(Ensemble)分别对革兰氏阴性菌的五个亚细胞定位和真核细胞核中的九个亚核定位中的蛋白质进行了预测。FKNN最早由James Keller等人于1985年率先提出而FKNN算法是在K-近邻分类(KNN)算法的基础提出来的,KNN从训练样本集中寻找K(事先设定)个与待测样本在某种规定的距离下最近的样本,然后把待测样本判决为在K个与待测样本最近的的样本中,样本类标号重复出现次数最多的类。FKNN亦是基于此原理,不同之处在于对待测样本做判决时根据样本属于每一类的程度赋予该样本一个隶属度。隶属度越大,表示属于某一类的可能性越高。把模糊理论引入KNN算法中,在很大的程度上削弱了训练样本分布不均匀性对分类效果的影响,提高了分类精确度,并且在一定程度上降低了该算法对K值的敏感性。为了提高分类器的精度,提高分类器自身的泛化能力,本文把集成学习引入到蛋白质亚细胞定位预测中。研究表明,当个体分类器具有较高精度,并且集成的个体分类器之间具有明显的差异性时,集成的分类结果才更有效。基于此理论,首先,在包含299条分布在5个不同的亚细胞定位的革兰氏阴性菌蛋白质的数据集上,运用伪氨基酸特(PseAA)征提取算法,采用不同的K值训练了6个个体和精度都存在明显差异的基分类器,运用jackknife交叉验证的方式,对分类结果采用一种新型的加权投票即累加投票量原则(Accumulative Vote Quantity, AVQ)进行集成,取得良好了分类结果。其次,为了提高个体基分类器预测精度,增大个体分类器之间的差异性,我们又在亚核定位数据集SNL9上,为了更科学的表示蛋白质序列,分别使用了氨基酸组成(AA)、伪氨基酸组成模型(PseAA)、准序列顺序(Quasi-sequence-order)模型、理化组成模型(PCC)、氨基酸组成模型和理化组成模型融合(Fusion)等5种蛋白质特征提取算法对蛋白质原始序列进行特征提取,利用这五种算法提取的特征,训练了5个结构不同的EFKNN分类器,并且在每个基本分类器中,每个分类器K的取值通过实验得出。这样充分保证了基本分类器之间的个体差异性和分类精度,并运用AVQ方法对分类结果集成,也采用jackknife交叉验证的方式,对细胞核内的9类亚核定位的蛋白质进行了预测,正确率为70.0%。通过实验结果表明,提出的预测模型在蛋白质亚细胞定位预测方面具有广阔的应用前景或至少对现有预测模型做了有效的补充。AVQ集成方法的提出,提高了分类精度,丰富和发展了集成学习理论方法的研究和实际应用。
其他文献
车载无线自组织网络(Vehicular Ad Hoc Network, VANET),是一种应用于交通领域的、动态变化的无线自组织网络(Ad Hoc Network)。它作为未来智能交通系统的一部分,通过车辆间
随着网络规模的进一步扩大和网络软硬件设施的日益复杂,人们对网络管理系统的需求也变得越来越迫切,正确快速的网络拓扑信息能直接有效地为网络管理员提供整体性的网络结构和
随着经济全球化和知识经济时代的到来,市场竞争日益激烈,企业要想更好更快地发展,就必须在增加市场份额的同时力争达到成本最小化,而在企业成本中,库存成本和运输成本占了很
随着近年来互联网技术的日趋成熟和应用范围的不断扩大,以文本形式存在的网络资源开始与日俱增。面对海量的信息,人们出现了“信息迷失的现象”,将海量信息根据内容进行归类
信息隐藏作为保障信息安全的新技术,吸引了国内外众多学者的关注,己成为信息安全领域的研究热点。保证信息安全的传统方法是加密技术,加密技术是对需要保密的信息进行加密,由
随着技术的革新和穿戴设备的发展,目前智能穿戴设备逐渐被广泛应用在军事和医疗等各个领域,智能穿戴设备不断引领着新的潮流,改变着人们的生活,但是其所处理的应用场景却复杂
随着计算机和网络技术的不断发展,企业信息化水平得到了很大的提高。20世纪80年代至90年代,各大企业不断开发自己的应用系统,人们对软件开发的认识从单一系统的完整性和一致
随着信息技术的不断发展,一些企业在生产过程中积累了大量的历史数据,这些历史数据中蕴藏着大量的、有用的、未知的知识。如何充分利用这些历史数据,从中发现与生产相关的有
巷道是矿井生产的“动脉”,巷道支护不仅关系到矿井生产的安全,同时也要花费巨额的成本。近年来,随着煤矿开采深度的增加,巷道支护处于十分艰难的境地,高地应力、软岩等深部
随着科学技术的发展以及现代社会工业自动化程度越来越高,视频监控技术的应用范围已经从最初的工农业生产,交通运输,安防等行业扩大到一些对视频监控有特殊要求的场合,而且对