基于离散增量法和神经网络的蛋白质亚细胞定位预测

来源 :济南大学 | 被引量 : 4次 | 上传用户:guidahuasheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,生命科学的研究内容呈高速发展态势,生物信息数据迅速增长。由于生物数据具有大规模性和复杂性的特征,因此,探索如何高效处理海量生物数据的生物信息学学科就应运而生。生物学功能取决于蛋白质所处的亚细胞位置,同时,蛋白质发挥功能的必要条件是该蛋白质要处于特定的亚细胞位置。如果蛋白质的运送位置发生了偏差,那么将会对细胞功能乃至生物体产生重大影响。此外,明确蛋白质的亚细胞定位能获取蛋白质的功能和结构信息,也可以使人们了解疾病的发生机理,有利于生物制药和细胞医疗领域的深入发展。因此,蛋白质亚细胞定位预测成为了后基因组时代生物信息学的主要研究内容之一。生物学观点认为,蛋白质序列决定结构,结构决定功能。蛋白质亚细胞定位预测的生物信息学方法主要是通过智能算法和最初的氨基酸序列来预测蛋白质具体的亚细胞位置。蛋白质亚细胞定位预测的生物信息学方法一般包括四个步骤:第一,建立一个客观有效的数据集;第二,选择合适的特征提取方法对蛋白质序列进行编码;第三,利用智能算法构建行之有效的分类器,应用分类器对蛋白质序列进行亚细胞定位;第四,根据预测结果对分类器算法进行评估。本文系统的介绍了蛋白质特征提取方法、蛋白质亚细胞定位的智能算法、离散增量法和神经网络等基本理论,在总结前人的研究基础上,提出了使用离散增量法结合神经网络进行蛋白质亚细胞定位预测的方法。研究的重点是,将离散增量法和神经网络进行有效结合以及能够使蛋白质序列获得较高的预测精度的特征提取方法。进行蛋白质亚细胞定位,首先必须通过特征提取方法使蛋白质序列成为计算机能够识别的数字信息。特征提取方法对亚细胞定位预测正确率至关重要,常用的特征提取方法有氨基酸组成模型(AAC)、二肽组成模型(Dipeptide)、水合组成模型(AAHC)、伪氨基酸组成模型(PseAA)、理化组成模型(PCC)、分组重量编码(EBGW)、N端信号编码(NTS)等。本文研究时,将离散增量法这种分类器方法转化成特征提取方法,将常用特征提取方法提取后的蛋白质序列输入到离散增量分类器中,将得到的多样性增量作为蛋白质的特征。同时,将各种常用特征提取后得到的多样性增量特征进行了融合。结果显示,有效的融合多特征会比单使用一种特征编码方式效果更好。其中,N端信号编码对亚细胞定位预测效果的提高起到了很大的作用。常用的二分类器方法有K近邻方法(KNN)、贝叶斯网络、人工神经网络(ANN)、柔性神经树(FNT)等。但蛋白质亚细胞定位预测是典型的多类分类问题,用上面提到的几种分类器进行多分类,预测结果并不理想。因此,处理多分类问题就需要转化成多个二分类问题来解决,然后利用常用二分类器来预测。本文在进行SNL6数据集的亚细胞定位预测时,通过纠错输出编码模型(ECOC)转化成二分类问题来解决,基分类器采用了人工神经网络,网络系数的优化算法采用了粒子群优化算法(PSO),取得了较好的预测效果。
其他文献
单体型序列是生物遗传分析中的一类重要信息。由于实验方法获取单体型序列具有价格过高、速度慢等缺点,使用计算手段从易于获取的基因型序列得到单体型序列成为人们的首选,并
随着通信业的快速发展,3G技术给人们带来了前所未有的高速通信体验,WCDMA是最为成熟的移动通信3G标准。在我国,随着WCDMA标准的演进和产业化的发展,其协议特性越来越丰富,协议规模
植物在生长过程中,常常遭受到各类逆境和病虫害等胁迫的影响,寻找与胁迫响应相关的关键基因,研究植物对胁迫响应的机制,对农业、林业、环保等多方面都具有重要意义。获取基因
合成生物学飞速发展,工程领域对设计外源基因引入载体细胞引导路径合成从而获得目标产物的需求大大增加,这已经是工业化生产中获得自然界中产量少的化合物的一个重要方法。人
计算机网络和无线通信技术的发展,推动了森林环境监测、医疗卫生和军事监控等无线传感网络应用的发展和普及。多数应用都对数据传输的延迟时间,即数据从源节点发出到被根节点
汽车尾气的排放是造成目前日益严重大气污染问题以及能源危机的一个重要原因,为此,大力发展电动车行业是如今的一个主要方向。随着这些电动车用户量的增加,有的地方已经开始
近年来随着嵌入式设备的日益普及,嵌入式软件的安全性越发显得重要。在一些关键领域,如航天、医疗、军事、核能等,如果嵌入式软件存在程序漏洞,有可能导致程序在非正常状态运
视频关键帧提取及其可视化展示有利于视频内容信息的快速查阅和筛选,本文提出了两种关键帧提取算法以及一种螺旋圈结构的视频内容可视化方法,设计开发了三个应用系统。  关键
随着多媒体信息技术的飞速发展,图像资源越来越多地出现在人们的工作和生活当中,如何能够快速确地在庞大的图像资源库中查询到所需信息已经成为计算机视觉领域的一个重大挑战
聚类分析作为数据挖掘的十大难题之一,是数据挖掘范畴的重点研究内容。其中,对高维数据的聚类更是研究者们探索的热点问题。最近的研究显示出传统的聚类算法可能因为高维数据