论文部分内容阅读
蛋白质翻译后修饰的位点识别是蛋白质组学的重要任务,传统实验识别方法耗时费力,机器学习是解决这类生物信息学问题的有效手段,其主要包括数据预处理、蛋白质序列表征、特征选择、分类器构建与模型验证五个环节。其中,序列表征是位点识别的关键。本研究结合氨基酸位置信息与卡方测验统计差表,发展了一种新的序列表征方法χ~2-pos,具有特征维数低、冗余度小、特征矩阵不稀疏等优点,并将新方法成功用于O-糖基化位点和磷酸化位点识别研究,具体结果如下:O-糖基化位点预测:糖基化是一种常见的蛋白质翻译后的修饰,O-糖基化的固定模式未知,高精度识别O-糖基化位点是机器学习面临的挑战性问题。本文以迄今最大的O-糖基化位点Steentoft数据集为基础,采用x2-pos、伪氨基酸序列进化信息PsePSSM及无方向的k间隔氨基酸对组分Undirected-CKSAAP表征序列,构建5个正负样本均衡的支持向量机分类器,经加权投票决策,独立测试的Matthews相关系数、ROC曲线下面积以及准确率分别达到了0.79、0.96、89.62%;基于此数据集,Steentoft等以预测的跨膜区、预测的表面可接触性及预测的蛋白质无序区为特征,构建正负样本均衡的支持向量机分类器,其独立预测的Matthews相关系数及准确率分别为0.71、83%;本文明显优于文献报道结果。磷酸化位点预测:磷酸化是另一种主要的蛋白质翻译后修饰,可分为激酶特异性和非激酶特异性两种类型。由于目前与激酶相关的底物信息不全,因此本文以非激酶特异性磷酸化为研究对象。以磷酸化位点Dou数据集为基础,融合χ~2-Pos与PsePSSM两类特征表征序列,构建正负样本均衡的支持向量机分类器,S/T/Y磷酸化位点的独立测试Matthews相关系数、ROC曲线下面积以及准确率分别达到了0.59/0.55/0.50,0.87/0.85/0.81,79.74%/77.68%/75.22%;基于此数据集,Dou等以预测的二级结构、预测无序区、信息熵、相对熵、溶剂可及表面积、重叠性、平均累积疏水性、K近邻共8种特征表征序列,采用支持向量机构建正负样本均衡的分类器,其S/T/Y独立预测的ROC曲线下面积分别为0.78/0.67/0.60;本研究明显优于文献报道结果。χ~2-pos在蛋白质序列表征中有广泛应用前景。