论文部分内容阅读
蛋白质翻译后修饰是对翻译后的蛋白质进行共价加工的过程,它在调控蛋白质构象变化、活性以及功能等方面发挥着重要作用。精确地识别翻译后修饰位点是深入探究翻译后修饰分子机制的关键。近十年来,基于机器学习的蛋白质翻译后修饰位点预测研究取得了快速发展,已经成为生物信息学领域的一个研究热点。本文根据蛋白质翻译后修饰位点预测的研究现状,从蛋白质序列角度出发,利用机器学习中的支持向量机(SVM)及其改进算法,对目前翻译后修饰位点预测中存在的几个问题进行研究,主要工作概括如下:1.建立了一个蛋白质赖氨酸甲基化位点及程度预测模型iLM-2L,以解决现有的赖氨酸甲基化位点预测方法的预测精度较低,且不具备甲基化程度预测功能的问题。首先,针对现有赖氨酸甲基化位点预测方法准确率较低的问题,将有效的k-spaced氨基酸对组成编码方法应用于甲基化位点预测模型的构建,提高了甲基化位点预测准确率。其次,针对现有甲基化预测方法忽略甲基化程度预测的问题,将甲基化程度预测建模为一个多标签学习问题并利用多标签SVM算法对其进行训练。仿真实验结果表明,iLM-2L的预测性能要优于现有的5个甲基化位点预测方法:MeMo、MASA、BPB-PPMS、PMeS以及iMethyl-PseAAC。此外,iLM-2L还能够有效地进行甲基化程度预测,弥补了现有预测方法不具备甲基化程度预测功能的不足。通过对最优的k-spaced氨基酸对组成特征的分析,给出了赖氨酸甲基化修饰位点周围的潜在序列模式偏向。最后,基于iLM-2L模型,构建了甲基化位点预测服务平台,为研究人员提供在线预测服务(http://123.206.31. 171/iLM 2L/)。2.建立了一个原核生物pupylation位点预测模型IMP-PUP。针对pupylation修饰位点数据较少而导致现有预测模型性能不佳的问题,提出了一个半监督自训练SVM算法作为IMP-PUP模型的核心分类算法。所提出的自训练SVM算法可以充分挖掘PupDB数据库中未带有修饰位点标注的pupylation蛋白所隐含的位点信息,扩充了可用于模型训练的修饰位点数据,进而提高了预测性能。该算法在迭代训练过程中引入一个最小距离准则设计置信度函数来抽取可信样本,克服了原始半监督自训练SVM算法在训练过程中容易过早出现误分类情况的不足。仿真验证结果表明,IMP-PUP模型的预测性能要优于其它3个现有预测器:GPS-PUP、iPUP和pbPUP。基于IMP-PUP模型,构建了相应的在线预测平台(http://123.206.31.171/IMP_PUP/).3.建立了一个赖氨酸phosphoglycerylation位点预测模型CKSAAP_PhoglySite。首先,针对phosphoglycerylation位点预测中正负训练样本不平衡且含有噪声的问题,提出了一个模糊SVM算法。所提出的模糊SVM算法在设计样本的模糊隶属度函数时,不仅考虑样本到其类中心距离,而且考虑样本周围的紧密程度,大大提升了算法处理噪声数据的能力,并通过赋予正、负类样本分别以较大、较小的惩罚因子,较好地克服了数据不平衡性对分类器的影响。其次,为了寻找有效的编码技术来提取phosphoglycerylation位点周围的序列特征,分析并比较了氨基酸组成、二进制编码、k-spaced氨基酸对组成、位置特异性得分矩阵和二级结构这5种常用的特征对模型预测效果的影响。最后,利用所提出的模糊SVM算法结合k-spaced氨基酸对组成特征对CKSAAP_PhoglySite模型进行构建。Jackknife测试结果表明,CKSAAP_PhoglySite模型的预测准确率比现有的预测工具Phogly-PseAAC提高了14.2%。基于CKSAAP_PhoglySite模型,构建了相应的在线预测服器(http://123.206.31.171/CKSAAP_PhoglySite/)。