论文部分内容阅读
蛋白质(protein)作为生命现象的物质基础之一,是生命活动过程中的重要承担者,在生物体的生命过程中具有重要的作用。生物信息学的研究对于人们加深对人类生命过程的认知,帮助人们改善医疗环境和提高生活质量有着重要的意义,受到了国内外学者的广泛重视。随着上世纪90年代“人类基因组计划”(Human Genome Project,HGP)工作的展开,已知蛋白质序列的数量呈爆炸性增长,标志着人类已经跨入到后基因组时代。蛋白质的基本组成单位是氨基酸,蛋白质分子由氨基酸序列形成的一条长长的肽链,并在空间盘绕折叠进而形成特定的立体结构,不同的氨基酸序列决定了蛋白质结构的多样性。我们知道,蛋白质结构决定蛋白质功能,而蛋白质的生物功能体现在它和各种配体如三磷酸腺苷、维生素、金属离子、药物分子等以某种生物化学方式结合(称之为绑定),在生物体的生命过程中发挥相应的作用。三磷酸腺苷(Adenosine 5’-triphosphate, ATP)作为一种蛋白质配体,在分子细胞生物学中扮演着一个重要的角色,如膜运输、细胞活性、肌肉收缩、信号、复制和转录DNA、以及各种代谢过程。蛋白质与ATP的绑定作用发生位点与蛋白质的结构有着密切的关系。随着蛋白质测序技术的飞速发展,已经积累了大量的蛋白质序列数据未标定,传统的生物学实验方法往往遇到实验密集、昂贵、耗时等问题。目前,从已知的蛋白质序列来预测蛋白质与配体的绑定关系是一项重要的工作。本文中,将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,我们提出了一种基于支持向量回归分类器集成的蛋白质-ATP绑定位点预测方法。首先,使用滑动窗口抽取蛋白质序列中每个残基的特征,得到一批不平衡的两类样本;其次,应用随机下采样策略,消除正负样本存在的显著不平衡;最后,我们设计了一个基于支持向量回归集成的预测模型,并选取合适的阈值进行蛋白质-ATP绑定位点的预测。本文研究的创新之处在于从机器学习关于回归和分类的关系出发,并根据所研究的生物信息学问题本身的特点,利用回归的方法实现分类的功能。在标准数据集上的实验结果以及与几种常用分类器和最新报道的预测方法的对比结果,验证了本文所述方法的有效性。