基于支持向量回归集成的蛋白质-ATP绑定位点预测研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:huyanlongbad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质(protein)作为生命现象的物质基础之一,是生命活动过程中的重要承担者,在生物体的生命过程中具有重要的作用。生物信息学的研究对于人们加深对人类生命过程的认知,帮助人们改善医疗环境和提高生活质量有着重要的意义,受到了国内外学者的广泛重视。随着上世纪90年代“人类基因组计划”(Human Genome Project,HGP)工作的展开,已知蛋白质序列的数量呈爆炸性增长,标志着人类已经跨入到后基因组时代。蛋白质的基本组成单位是氨基酸,蛋白质分子由氨基酸序列形成的一条长长的肽链,并在空间盘绕折叠进而形成特定的立体结构,不同的氨基酸序列决定了蛋白质结构的多样性。我们知道,蛋白质结构决定蛋白质功能,而蛋白质的生物功能体现在它和各种配体如三磷酸腺苷、维生素、金属离子、药物分子等以某种生物化学方式结合(称之为绑定),在生物体的生命过程中发挥相应的作用。三磷酸腺苷(Adenosine 5’-triphosphate, ATP)作为一种蛋白质配体,在分子细胞生物学中扮演着一个重要的角色,如膜运输、细胞活性、肌肉收缩、信号、复制和转录DNA、以及各种代谢过程。蛋白质与ATP的绑定作用发生位点与蛋白质的结构有着密切的关系。随着蛋白质测序技术的飞速发展,已经积累了大量的蛋白质序列数据未标定,传统的生物学实验方法往往遇到实验密集、昂贵、耗时等问题。目前,从已知的蛋白质序列来预测蛋白质与配体的绑定关系是一项重要的工作。本文中,将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,我们提出了一种基于支持向量回归分类器集成的蛋白质-ATP绑定位点预测方法。首先,使用滑动窗口抽取蛋白质序列中每个残基的特征,得到一批不平衡的两类样本;其次,应用随机下采样策略,消除正负样本存在的显著不平衡;最后,我们设计了一个基于支持向量回归集成的预测模型,并选取合适的阈值进行蛋白质-ATP绑定位点的预测。本文研究的创新之处在于从机器学习关于回归和分类的关系出发,并根据所研究的生物信息学问题本身的特点,利用回归的方法实现分类的功能。在标准数据集上的实验结果以及与几种常用分类器和最新报道的预测方法的对比结果,验证了本文所述方法的有效性。
其他文献
学位
心血管疾病具有很强的隐蔽性且发病急,是当今全世界发病率和死亡率最高的疾病,因此,疾病初期的诊断和预防尤其重要,而作为临床诊断的重要手段和依据的基于医学图像的心脏功能
移动机器人是机器人领域的一个重要的发展方向,越来越广泛地应用于工业、农业、军事、教育等人类社会的各个方面。移动机器人是集环境感知、动态决策与规划、行为控制与执行
随着国民经济的发展,电力电子设备得到广泛应用,使得电网中的谐波污染越来越严重,极大地危害了电力设备的安全运行。电网中的谐波成份非常复杂,因此谐波的检测分析,是消除或降低谐波污染的前提。通过大量资料的收集、阅读及相关技术的研究,本文分析了嵌入式系统在电力系统测控中的应用优势,设计了以ARM7TDMI内核处理器LPC2214为核心的电网谐波检测分析系统。系统主要实现低压配电网三相电压、电流的谐波检测与
过程监测一直都是工业系统的主要研究问题之一。它通过密切地监督生产过程的运行状态,不断地检测过程的变化趋势、诊断故障信息,有效地提高了产品的质量和经济效益。基于数据
短期负荷预测是电力系统安全经济运行的前提,随着分时电价方式的推广和电力市场化改革的深入,电力公司力求及时、准确地把握负荷变化的信息,对负荷预测的重要性和迫切性提到了前所未有的高度,同时也对负荷预测的精度提出了更高的要求,这必将推动我国对负荷预测新方法、新技术的研究。负荷预测方法大致可分为两大类。一类是以时间序列法为代表的传统方法;另一类是以人工神经网络法为代表的新型人工智能方法。本文分析了支持向量
行车灯语是交通流中车辆之间直接进行驾驶行为信息交互的一种主要方式。实现车辆尾灯的自动检测与灯语识别不仅具有重要的研究意义,同时还有着广泛的应用前景。然而白天时,如
内容中心网络(Content-Centric Networking, CCN)是一种新型的网络体系结构,是未来网络的研究热点之一。由于网络资源的有限性和流量的突发性,拥塞问题依然是CCN中的基本问题
在工业生产和制造过程中,有些工艺参数出于技术或经济的原因,无法直接测量,但是这些参数对于保证产品的质量和保证生产装置的平稳运行都十分重要。为解决这个问题,软测量技术应运
冷轧薄板属于高附加值钢材品种,是汽车、机械、建筑、电工电子、食品等行业必不可少的原材料。平直度是衡量冷轧带材产品质量的重要指标之一,随着用户对带材平直度要求的不断提