基于序列的蛋白质-GDP/GTP结合位点的预测研究

来源 :上海海洋大学 | 被引量 : 0次 | 上传用户:e1r2s3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GDP(二磷酸鸟苷)和GTP(三磷酸鸟苷)是核苷酸的一种,参与了生物中大部分生物化学反应,在DNA复制与转录、跨膜运输、肌肉收缩以及多种代谢过程中都发挥着不可替代的作用。在大多数生物细胞活动中,都需要蛋白质与核苷酸互相结合来发挥其作用。蛋白质-核苷酸结合位点的识别不仅有助于探索分子间相互作用的机制,而且有助于有效地解释疾病的发病机制,为药物的发现和设计提供帮助。传统的研究通常是使用生物学实验预测蛋白质-核苷酸结合位点。实验方法往往成本高、耗时、难以推广使用。因此,使用基于计算的方法进行蛋白质结合位点的研究就显得尤为重要。同时蛋白质序列中核苷酸结合位点的预测是不平衡二分类问题,因为蛋白质序列中GDP和GTP非结合残基的数量远多于结合残基的数量。故需要使用采样方法来解决该问题。本文关于蛋白质-GDP/GTP结合位点的预测研究主要工作如下:(1)蛋白质的特征提取。针对蛋白质序列信息,使用位置特异性迭代搜索算法提取基于氨基酸残基进化的特征信息,通过基于镜像残基的可变滑动窗口方法选取以每个残基为中心的邻域残基的特征组合。(2)研究了基于CNMW(Clustering Near Miss-2 Weighted)下采样和邻域清理下采样两种采样方法。基于CNMW下采样对多数类样本进行K聚类得到K个类簇,按照Near Miss-2距离为各个簇赋予相应的权重,即多数类样本所具有的第一个权重。然后从样本全局考虑,利用最近邻的思想对样本集中的每一个样本赋予权重,即样本所具有的第二个权重,此时样本集中每个多数类样本有两个不同的权重,将每个多数类样本对应的两个权重相乘得到一个新的权重,把新的权重从大到小排序,然后按照此顺序选取和少数类样本一样多的多数类样本,并和少数类样本组成新的数据集。邻域清理下采样对数据集中的每一个数据样本,挑选出其三个最近邻样本组成一个集合M,对于非结合位点样本p,若M中至少两个是结合位点样本,则移除p;对于结合位点样本q,若M中有两个以上非结合位点样本,则移除M中的非结合位点样本。(3)提出了两种蛋白质-GDP和蛋白质-GTP结合位点的预测模型。将邻域清理下采样和SVM组合成NCL_S预测模型,基于CNMW_S下采样和SVM组合成CNMW_S预测模型。在标准数据集上,先对蛋白质-GDP/GTP结合位点做五重交叉验证实验,然后使用独立测试集对模型进行测试实验,检验CNMW_S和NCL_S两种模型的预测性能。实验结果表明,两种预测模型都在一定程度上提升了预测性能。
其他文献
我国水产品来源以养殖为主,水产品需求量的不断提高,水产品养殖规模的不断扩大,对我国水产养殖的自动化和智能化提出了更高的要求。在鱼类养殖过程中,在外部环境的异常如水温异常、溶解氧浓度异常、光照异常、异常化学物质等的刺激下,鱼类会产生不同的异常行为反应,如鱼群的回避行为、鱼群异常游动、鱼群大规模死亡等。鱼群的这些异常行为如果不能被及时地发现并被妥善处理,将造成巨大的经济损失。因此,鱼群异常检测作为水生
学位
报纸
番茄是全球栽培最为普遍的蔬菜之一,在欧美、中国和日本等国家大多采用设施栽培方式。目前,番茄花果期的识别主要依靠人工观测,无法满足实时、快速的检测需求,番茄采摘主要依靠人工作业,其劳动强度大、工作效率低。智能装备可节约劳动力、提升生产效率,对工厂化番茄种植具有重要意义。本文以玻璃温室内不同时期的番茄花果为研究对象,提出了基于图像视觉的番茄花果识别检测方法。主要研究内容如下:(1)研究了基于改进Yol
学位
说起小儿多动症,想必大家应该都不陌生,小儿多动症主要是儿童心理方面存在疾病所导致的。由于儿童的年龄及较小,思维比较活跃,身心处于生长的关键时期,对于外界的一切事物充满好奇,会产生新鲜感,每个阶段的儿童所呈现的思维、行为、心理都存在着不同,而且活动量的多少也有不同,如果儿童的活动量与同龄的孩子相比较高,而且情绪波动比较大,会产生暴躁的心理,难以集中注意力,那么有可能是患有小儿多动症。
期刊
报纸
头足类生物的主要摄食器官是角质颚,在它们的生长过程中,其角质颚上的色素由于食性的变化而不断沉积。已有的研究表明,这种色素沉积可以反映出头足类生物的日龄、胴长、体重等生态学信息。目前对角质颚色素沉积的研究方法主要有两种,一种是基于角质颚的特定部位是否有色素沉积,将其定性地划分为八个等级,这种方法受人为因素干扰较大。另一种是通过测量角质颚多组外形参数,给出参数长度与色素沉积等级之间的相关性关系,这种方
学位
免疫细胞浸润实体瘤的性质和程度是治疗癌症的关键决定因素,了解肿瘤组织的免疫细胞比例对肿瘤患者的诊断和预后治疗具有重要意义。如何快速方便地识别肿瘤的细胞成分是生物信息领域的研究热点之一。许多基于机器学习的计算方法已经被开发用来进行肿瘤的异质性分解,从而替代价格昂贵、耗费时间长的实验方法。大部分现有的计算方法是基于样本内全部的细胞信息来预测样本组成,但在实际的临床实践中有些数据会丢失即仅有部分数据可用
学位
近年来,暗纹东方鲀养殖效益欠佳,造成养殖户的积极性降低,亟需进一步丰富市场上暗纹东方鲀的养殖品种。然而,暗纹东方鲀的人工繁殖和杂交育种效率低下,通过人工方式对胚胎质量及胚胎发育的各个时期进行分类检测准确性不高。利用图像处理技术精确的识别分类出暗纹东方鲀胚胎的各个时期,并通过分析每个时期的特征建立合适的盐度、温度等养殖环境,可以提高人工繁殖和杂交育种的成活率,采用自动方式并提高暗纹东方鲀胚胎各个时期
学位
近年来,由于我国国民经济的快速增长、电商行业的兴起以及物流速递等业务的蓬勃发展,中华绒螯蟹作为我国特色水产经济作物之一,已经拥有相当规模的销售市场。但是,目前市场上主流的大闸蟹追溯方式是采用捆扎条形码或二维码等电子标签于蟹钳上,由于标识物的可替换性,单单依靠这种方式追溯河蟹信息并不可靠。因为大闸蟹生长环境的变化,个体大闸蟹背甲图像中的隆起、凹陷、沟渠、纹理等形态性状会出现较为明显的差异,因此个体河
学位
随着人们对于水产品需求的不断增加,根据国际粮食和农业组织估计,到2030年全球水产品需求缺口预计将达到3000万吨。海洋渔业农牧化也是我国现代海洋渔业发展的趋势,渔业的发展对于我国人民群众的生活和国民经济有着十分重要的意义。在水产养殖中,最重要的问题之一是通过自动化手段准确地、持续地监测鱼的各类形态特征,来评估鱼类健康状况并优化鱼群日常饲养流程,为确定最佳的捕捞时间提供科学指导。鱼类的体尺参数是评
学位