支持向量机用于蛋白质糖基化及磷酸化位点预测研究

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:wyp345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质翻译后修饰的位点识别是蛋白质组学的重要任务,传统实验识别方法耗时费力,机器学习是解决这类生物信息学问题的有效手段,其主要包括数据预处理、蛋白质序列表征、特征选择、分类器构建与模型验证五个环节。其中,序列表征是位点识别的关键。本研究结合氨基酸位置信息与卡方测验统计差表,发展了一种新的序列表征方法χ~2-pos,具有特征维数低、冗余度小、特征矩阵不稀疏等优点,并将新方法成功用于O-糖基化位点和磷酸化位点识别研究,具体结果如下:O-糖基化位点预测:糖基化是一种常见的蛋白质翻译后的修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题。本文以迄今最大的O-糖基化位点Steentoft数据集为基础,采用x2-pos、伪氨基酸序列进化信息PsePSSM及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票决策,独立测试的Matthews相关系数、ROC曲线下面积以及准确率分别达到了0.79、0.96、89.62%;基于此数据集,Steentoft等以预测的跨膜区、预测的表面可接触性及预测的蛋白质无序区为特征,构建正负样本均衡的支持向量机分类器,其独立预测的Matthews相关系数及准确率分别为0.71、83%;本文明显优于文献报道结果。磷酸化位点预测:磷酸化是另一种主要的蛋白质翻译后修饰,可分为激酶特异性和非激酶特异性两种类型。由于目前与激酶相关的底物信息不全,因此本文以非激酶特异性磷酸化为研究对象。以磷酸化位点Dou数据集为基础,融合χ~2-Pos与PsePSSM两类特征表征序列,构建正负样本均衡的支持向量机分类器,S/T/Y磷酸化位点的独立测试Matthews相关系数、ROC曲线下面积以及准确率分别达到了0.59/0.55/0.50,0.87/0.85/0.81,79.74%/77.68%/75.22%;基于此数据集,Dou等以预测的二级结构、预测无序区、信息熵、相对熵、溶剂可及表面积、重叠性、平均累积疏水性、K近邻共8种特征表征序列,采用支持向量机构建正负样本均衡的分类器,其S/T/Y独立预测的ROC曲线下面积分别为0.78/0.67/0.60;本研究明显优于文献报道结果。χ~2-pos在蛋白质序列表征中有广泛应用前景。
其他文献
产学研合作作为创新型人才培养的创新性举措,近年来,在推动素质教育发展,提高人才综合素质方面发挥了重要作用。面对当前体育产业竞相发展的新态势,面对产学研合作规模小、形
煤炭行业的生产效率以及安全管理等方面越来越受到人们的重视,随着科学计算的不断发展,煤炭生产领域已经开始进行信息化建设,对煤炭生产调度管理而言,煤炭信息化生产建设作用
红色文化在促进社会主义主流意识形态认同的过程中具有重要的价值,其意识形态价值体现在能够巩固中国共产党执政的思想基础,夯实社会主义文化的自信根基,培育和涵养社会主义
目的观察黄土汤加减联合康复新液保留灌肠对溃疡性结肠炎的临床疗效。方法:将160例符合纳入标准的溃疡性结肠炎患者随机分为对照组120例和治疗组40例,治疗组给予黄土汤煎剂结
目的评价99mTc-MIBI门控单光子计算机断层扫描(GSPECT)心肌灌注显像运动后不同显像时间对健康志愿者及有冠心病(CAD)危险因素者左心室功能参数的影响。资料与方法采用隔日运动-静
小儿水肿的内因应立足于脾,以脾虚为根本.这是因为小儿有着不同于成人的特点.本文将着重从小儿的生理病理特点,论述小儿水肿的病因病机及历代先贤对小儿水肿的认识和成就,从
笔者之前写过,相对于电池材料和电池单体,动力电池的整体系统才是考核电池整体防护能力的关键。$$那么,电动汽车起火的主要因素是不是就看电池了呢?答案显然是否定的。在这里,一定
报纸
低成本IMU具有误差大、误差随温度变化明显等特点,并且不同IMU误差差异较大,应用时需深入辨识所使用IMU误差特性,并补偿,以提升应用效果;为此形成了一种预处理算法流程,首先
目的:选取兔VX2细胞和人肝癌细胞HepG2,体外研究羟基喜树碱脂质体对肝肿瘤细胞HIF-1a表达的影响。材料与方法:体外培养人HepG2肝癌细胞和兔VX2瘤细胞,分别在常氧(21%02)和缺氧(
目的观察"化浊育精颗粒"治疗精子DNA损伤男性不育患者的作用。方法选择120例合并有精子DNA完整性异常的男性不育患者,将其随机分为治疗组和对照组,每组60例患者。治疗组患者