基于选择性集成学习的膜蛋白识别方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:woxiangtoucai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自人类步入后基因组时代,蛋白质组学作为基因组学的下一个重要阶段受到越来越多学者的关注。其中,蛋白质识别和结构预测是蛋白质组学研究的基础环节。目前,生物信息学家开展膜蛋白质识别主要以机器学习分类方法为主,而特征提取和分类算法是其中关键步骤,本文围绕这两点进行了深入地研究。  本文主要研究内容包括:  (1)引入了三种膜蛋白的特征及其提取方法。本文先后引入了指代蛋白质同源信息的20维特征;指代氨基酸组成成分-物理化学性质的188维特征;指代蛋白质同源信息结合氨基酸在序列中顺序信息的1000维特征。实验结果表明,20维特征具有最高的分类准确率,188维特征具有最快的提取速度,然而1000维特征却没有获得比20维更佳的理论结果。  (2)提出了基于最小错分样本交集的选择性集成学习法。本文提出利用最小错分样本交集大小来衡量基分类器间的差异度,从而帮助筛选基分类器。实验结果表明,本文集成分类器在膜蛋白预测上二分类和八分类的准确率分别为91.2%和86.1%,和现有最好效果相当,却拥有更高的运行效率。  (3)构建了新的膜蛋白数据集,弥补了已有膜蛋白数据集的不足。发现了参与选择性剪切的多肽中大约1/3是膜蛋白。发现了接近12%的酶具有膜蛋白的特性。开发了基于本文最小错分样本交集的膜蛋白预测平台BinMemPredict和选择性集成分类开源工具包LibSimpleVote。
其他文献
随着面向服务架构(Service-oriented Architecture, SOA)的发展,SaaS (Software as a Service)服务作为一种新型的软件服务模式凭借其按需租用、易于维护、便于扩展等特点改
根据卫生部《生活饮用水卫生布标准》(GB5749-2006)的规定,余氯浓度是衡量管网水质的重要指标。因此,加强对余氯浓度的研究是改善供水管网水质的一种比较有效的手段。当前,对于管
低密度校验码(Low-Density Parity-Check codes, LDPC codes)是一种逼近香农限的现代编码技术,已成为当今信道编码领域的研究热点之一。由于低密度校验码具有译码复杂度低、纠
近年来,随着交通运输业的发展,交通事故已成为当前各国所面临的严重问题。其中,疲劳驾驶是导致交通事故的一个重要因素。因此,对于驾驶疲劳检测方法的研究已经成为一个重要课题。
近年来,个性化技术在提升互联网信息服务质量方面发挥了重要的作用。伴随个性化思想的普及,各类互联网应用愈发关注用户个人的信息需求。很多方案尝试从各种渠道收集用户数据,建
随着探测器和空间技术的发展,天文观测从可见光、射电波段扩展到包括红外、紫外、X射线和γ射线在内的电磁波各个波段,形成了全波段天文学,现发展到了一个全新的阶段,即全波
基于GPRS的生产实时数据在线监测系统不管在学术领域还是应用领域都非常具有研究价值。研究GPRS技术在工业生产中的应用,满足人们对工业生产实时数据的传输要求具有十分重要
图像采集与传输系统是指将摄像头采集的图像实时的发送到控制室的过程,方便工作人员对监控场所进行管理和控制。图像采集与传输系统因其实用性强、布置方便、操作简单等优点被
文本分割的本质是根据文本内部的主题相似性获得分割之间的边界位置,使得分割内部具有最大的语义一致性而分割之间的语义一致相对较小。本文探讨基于LDA和图割的文本主题分割
本体作为语义网中的知识表现形式,近年来已经被广泛的应用到知识工程、人工智能和信息检索等研究领域。由于不同的组织或个人在本体构建中没有统一的标准,导致了本体异构的问题