基于支持向量机的赖氨酸翻译后修饰位点预测方法研究

来源 :大连理工大学 | 被引量 : 2次 | 上传用户:whywhatyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质翻译后修饰是对翻译后的蛋白质进行共价加工的过程,它在调控蛋白质构象变化、活性以及功能等方面发挥着重要作用。精确地识别翻译后修饰位点是深入探究翻译后修饰分子机制的关键。近十年来,基于机器学习的蛋白质翻译后修饰位点预测研究取得了快速发展,已经成为生物信息学领域的一个研究热点。本文根据蛋白质翻译后修饰位点预测的研究现状,从蛋白质序列角度出发,利用机器学习中的支持向量机(SVM)及其改进算法,对目前翻译后修饰位点预测中存在的几个问题进行研究,主要工作概括如下:1.建立了一个蛋白质赖氨酸甲基化位点及程度预测模型iLM-2L,以解决现有的赖氨酸甲基化位点预测方法的预测精度较低,且不具备甲基化程度预测功能的问题。首先,针对现有赖氨酸甲基化位点预测方法准确率较低的问题,将有效的k-spaced氨基酸对组成编码方法应用于甲基化位点预测模型的构建,提高了甲基化位点预测准确率。其次,针对现有甲基化预测方法忽略甲基化程度预测的问题,将甲基化程度预测建模为一个多标签学习问题并利用多标签SVM算法对其进行训练。仿真实验结果表明,iLM-2L的预测性能要优于现有的5个甲基化位点预测方法:MeMo、MASA、BPB-PPMS、PMeS以及iMethyl-PseAAC。此外,iLM-2L还能够有效地进行甲基化程度预测,弥补了现有预测方法不具备甲基化程度预测功能的不足。通过对最优的k-spaced氨基酸对组成特征的分析,给出了赖氨酸甲基化修饰位点周围的潜在序列模式偏向。最后,基于iLM-2L模型,构建了甲基化位点预测服务平台,为研究人员提供在线预测服务(http://123.206.31. 171/iLM 2L/)。2.建立了一个原核生物pupylation位点预测模型IMP-PUP。针对pupylation修饰位点数据较少而导致现有预测模型性能不佳的问题,提出了一个半监督自训练SVM算法作为IMP-PUP模型的核心分类算法。所提出的自训练SVM算法可以充分挖掘PupDB数据库中未带有修饰位点标注的pupylation蛋白所隐含的位点信息,扩充了可用于模型训练的修饰位点数据,进而提高了预测性能。该算法在迭代训练过程中引入一个最小距离准则设计置信度函数来抽取可信样本,克服了原始半监督自训练SVM算法在训练过程中容易过早出现误分类情况的不足。仿真验证结果表明,IMP-PUP模型的预测性能要优于其它3个现有预测器:GPS-PUP、iPUP和pbPUP。基于IMP-PUP模型,构建了相应的在线预测平台(http://123.206.31.171/IMP_PUP/).3.建立了一个赖氨酸phosphoglycerylation位点预测模型CKSAAP_PhoglySite。首先,针对phosphoglycerylation位点预测中正负训练样本不平衡且含有噪声的问题,提出了一个模糊SVM算法。所提出的模糊SVM算法在设计样本的模糊隶属度函数时,不仅考虑样本到其类中心距离,而且考虑样本周围的紧密程度,大大提升了算法处理噪声数据的能力,并通过赋予正、负类样本分别以较大、较小的惩罚因子,较好地克服了数据不平衡性对分类器的影响。其次,为了寻找有效的编码技术来提取phosphoglycerylation位点周围的序列特征,分析并比较了氨基酸组成、二进制编码、k-spaced氨基酸对组成、位置特异性得分矩阵和二级结构这5种常用的特征对模型预测效果的影响。最后,利用所提出的模糊SVM算法结合k-spaced氨基酸对组成特征对CKSAAP_PhoglySite模型进行构建。Jackknife测试结果表明,CKSAAP_PhoglySite模型的预测准确率比现有的预测工具Phogly-PseAAC提高了14.2%。基于CKSAAP_PhoglySite模型,构建了相应的在线预测服器(http://123.206.31.171/CKSAAP_PhoglySite/)。
其他文献
众所周知,许多涉及控制领域的问题都可以转化成为凸优化问题解决。在很长的时间内,为了得到更接近最优值的解,大量经典的方法被运用。在最近十几年内,计算机能力的大大增长正
构建高效的小学数学课堂对于学生数学知识的获取,学习能力的提升意义非凡。那么,什么样的小学数学课堂才能是高效的小学数学课堂呢?在笔者看来,高效的小学数学课堂首先就应该
作为一类重要和特殊的混杂系统,切换系统有着重要的理论研究意义和广泛的工程应用背景,因而受到了学者们的重视。近年来,切换系统研究领域产生了很多重要的成果,且大部分研究
电磁驱动微米级颗粒技术由于其低创伤性以及在复杂微环境下的可达性,展现出在生物医药应用中的巨大潜力。在过去的几十年里,人们关于电磁操控微米级颗粒进行了大量的研究。然
在流程工业生产过程中,由于报警系统的不完善会导致报警数量过多,大量无效报警、滋扰报警充斥在有效报警之中,超出操作员的处理能力,影响过程运行的安全性。因此,如何根据生
二层多目标规划问题是一类结构较为特殊的二层规划问题。由于能恰当描述系统中存在的层次关系,全面体现决策者的意愿,二层多目标规划己展现出越来越广泛的应用前景。另一方面
目前,我国是世界最大的能源化工原料的生产和消费国家。能源与化工原料的生产和运输安全形势非常严峻,能源化工领域危化品泄漏爆炸事故频发,工农业中有毒有害气体的排放导致
中国有巨大的市场和大量优秀人才,中国公司的执行能力和生产能力很强,如果能把中国的这些优势同以色列的科技创新能力整合起来,将会产生奇迹。
IPC-国际电子工业联接协会。于2012年8月28日发布了7月份北美地区印制电路板(PCB)统计调研报告。PCB行业增长率和订单出货比结果刚性PCB,7月份出货量同比下降4.2%,订单同比减少了5.7%
目的研究骨皮质解剖复位在肱骨近端骨折内固定术中内侧柱支撑重建的临床价值。方法选择我院43例肱骨近端骨折患者为研究对象,以随机数表法将其分为观察组(n=22)与对照组(n=21