论文部分内容阅读
蛋白质组研究的开展是生命科学研究进入后基因组时代的里程碑,也是继基因组研究之后的又一“大数据科学”。蛋白质亚细胞定位预测研究是蛋白质组学的重要内容同时也是生物信息学的热点问题。研究单位点和多位点的蛋白质亚细胞位点信息对研究某些疾病的发病机理、药物设计和发现具有重要意义。围绕蛋白质亚细胞定位的机器学习方法及其应用研究这一主题,本文主要工作如下:1.提出基于PsePSSM-DCCA-LFDA方法的凋亡蛋白质亚细胞定位预测。首先融合伪位置特异性得分矩阵(PsePSSM)和去趋势互相关分析(DCCA coefficient)对蛋白质序列进行特征提取,然后对提取后的特征信息使用局部Fisher判别分析(LFDA)进行降维,最后,将降维后的特征向量输入到支持向量机(SVM)分类器预测凋亡蛋白亚细胞的位置。通过jackknife检验获得令人满意的预测结果,并与其它预测方法进行比较。结果表明,在对于蛋白亚细胞定位预测的研究中,我们的方法在现有的方法中发挥补充作用。2.提出基于PseAAC-PsePSSM-WD方法的凋亡蛋白质亚细胞定位预测。首先融合伪氨基酸组成(PseAAC)和伪位置特异性得分矩阵(PsePSSM)对蛋白质序列进行特征提取,然后对提取后的特征信息进行二维小波降噪,最后,将降噪后的最佳特征向量输入到支持向量机(SVM)分类器预测凋亡蛋白亚细胞的位置。通过jackknife检验获得令人满意的预测结果,并与其它预测方法进行比较。结果表明,本文提出的方法能够显著提高凋亡蛋白质亚细胞定位的预测精度,而且有望用于蛋白质其它属性的预测。3.提出基于DMLDA-LocLIFT方法的多标记蛋白质亚细胞定位预测。首先分别利用伪氨基酸组成、伪位置特异性得分矩阵、分组重量编码、二肽组成和GO信息对蛋白质序列进行特征提取,并将五种算法融合。然后对融合的特征信息进行直接多标记线性判别分析(DMLDA)降维。最后,将降维后的最佳特征向量输入到标记特征的多标记学习算法(LIFT)分类器中预测多位点蛋白亚细胞的位置。通过jackknife检验,与其它预测方法进行比较,对革兰氏阴性菌、革兰氏阳性菌和植物数据集上的预测准确率达到目前最高的预测精度。结果表明,本文提出的DMLDA-LocLIFT模型能够有效的预测多位点蛋白质亚细胞定位。