基于纠错输出编码的蛋白质亚细胞定位预测

来源 :济南大学 | 被引量 : 2次 | 上传用户:xiaoxiao1946
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质亚细胞定位预测就是利用原始氨基酸序列来判断其具体的亚细胞归属,预测依据为生物学常用的观点,序列决定结构,结构决定功能,而亚细胞定位与蛋白质的功能有密切联系,所以我们必须以最初的氨基酸序列为基础来预测亚细胞定位。亚细胞定位这个课题非常值得钻研,除了能对蛋白质对于人体的作用有所知和其自身的功能如何实现,以及认识蛋白质相互之间的关系和生命的本质外,还可以了解疾病机理和发展新药物,从而达到治疗的目的。人类基因组计划产生了海量的生物数据,迫切需要用生物信息学方法来对亚细胞定位的课题进行深入研究。   本文所做的主要工作就是得到一个对于未知类别的氨基酸序列分类效果比较好的分类模型,以期用它来预测以后的未知分类的数据。大概内容有四大步骤:得到数据集,数据集的特征编码,预测模型的设计以及分类结果的分析。研究的重点是氨基酸序列的特征提取和设计预测分类模型。   对氨基酸序列进行分类前,必须把序列中表征定位的主要特征提取出来,也是把氨基酸字母转化为计算机能够识别的数字信息的一步。特征提取的效果对于分类准确率来说至关重要,可想而知只有提取出最主要最关键的定位特征方能便于定位。用的比较多的方法有氨基酸组成方法(AAC)、二肽组成方法(Dipeptide)、伪氨基酸组成方法(PseAA)、还有其他混合特征编码方法。本文研究时用的是融合特征的编码方式,结果显示,有效的融合多特征会比单使用一种特征编码方式效果更好。   蛋白质亚细胞定位预测是典型的多类分类问题,处理多分类问题一般就是转化成二分类问题来解决,然后再利用常用的二类分类器来处理,如支持向量机(SVM)、人工神经网络(ANN)、柔性神经树(FNT)等等。关键就是如何构建处理多分类问题的分类模型,本文采用了纠错输出编码模型(ECOC)来分多分类问题,基分类器选用了人工神经网络和柔性神经树,为了解决亚细胞定位数据集不平衡的问题,又改进为二叉树和纠错输出编码相结合的模型,取得了很好的效果。
其他文献
随着网络中文档数量的与日俱增,人们的检索需求也在不断增加,数学表达式是大量网络文档的重要组成部分,人们经常会希望通过数学表达式在搜索引擎中检索所需的相关文档,但目前
目前随着互联网的蓬勃发展,尤其是电子商务的发展为越来越多的用户提供了Web服务。网民的选择增多,对网络服务的需求趋于理性和多样化,这为Web挖掘的发展提供了现实基础。对
战术Ad Hoc网络是Ad Hoc网络在战场指挥通信领域的一个典型应用,它具有节点分布区域广、作战需求强等特点,其移动模型技术是决定作战能力的关键技术之一。战术Ad Hoc网络中节点
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程。通过剔除冗余特征,以达到降低算法复杂度和提高算法性能的目的。特征选择是解决维数灾难问题的有效手段,
教学是学生与老师之间的互动,是教与学的有机结合,也是双方之间的绝对统一。这就需要教学当事人——老师和学生的积极参与、互动和交流,这不仅仅是将老师的教学活动与学生的知识
随着网络技术的不断进步、网络应用的不断增多,网络流量迅速爆发,对于服务质量、带宽计费以及入侵检测等网络管理而言,准确的流量分类变得更加重要。然而,在当前的网络环境下,由于
随着企业的逐渐壮大和信息技术的飞速发展,办公信息系统(Office Information System, OIS)已经成为提高企业办公效率的主要策略。即通过办公自动化来实现企业日常事务的办理,
智能车辆作为智能交通系统的重要研究内容之一,它是一个集环境感知、路径规划、决策控制等技术于一体的复杂系统。其中,决策控制技术占有重要地位,相当于人的大脑,现有的决策控制
自然场景图像中通常包含大量的文字和图像信息,其中文字信息可以帮助人们更好的理解图像内容。利用计算机自动检测并识别自然场景图像中的文本信息,是模式识别和计算机视觉中
虚拟手术作为虚拟现实技术在医学方面的应用,它对医师培训、手术计划和手术医学教学等方面的改进起到很大的帮助。其目的是在计算机中创建与真实手术环境基本相同的虚拟手术环