论文部分内容阅读
蛋白质与各种生命活动息息相关,是生命活动的主要承担者。对蛋白质的生化分析有助于人们理解生命活动的机理。本文分上下两篇讲述了基于遗传算法(Genetic Algorithm,GA)的特征筛选方法对蛋白质模式识别的改进以及植物非特异性转脂蛋白(non-special Lipid Transfer Proteins,nsLTPs)生化性质的研究。 在前一篇的研究中,利用基于GA的特征筛方法对嗜热蛋白和细胞周期蛋白的模式识别方法进行了改进。 本篇首先介绍了生物信息学中蛋白质种类识别的方法,并着重介绍了基于序列提取特征的蛋白质模式识别方法及其实现的一般步骤。随后,介绍了本文中利用到的特征提取原理以及特征筛选方法、分类器(即分类算法)的数学原理和评价指标。本文用到的特征有氨基酸残基的含量(Amino Acid Composition,AAC)、二肽含量(Dipeptide Composition,DC)、含残基间隔的残基对的含量(g-gapDipeptide Composition,DCg)、氨基酸的物理化学性质、伪氨基酸组分(PseudoAmino Acid Composition,PseAAC)以及蛋白质序列的进化信息;随之综述了特征的筛选方法,并着重介绍了本文使用的GA的原理;分类器主要用到多重线性回归(Multiple Linear Regression,MLR)分类器,偏最小二乘多重线性回归(PartialLeast Square Multiple Linear Regression,PLSMLR)分类器和支持向量机(SupportVector Machine,SVM)分类器;数据集的划分方法包括自身一致性验证法(self-consistency validation)、保持验证法(holdout validation)、子样本交叉验证法(sub-sample cross validation)和独立样本验证法(independent dataset validation);分类器的评价指标采用了比例类型的评定指标、相关系数、Matthews相关系数(Matthews Correlation Coefficient,MCC)和受试者工作特征曲线(Receiver-Operating Characteristic curse,ROC)下的面积(Area Under the receiveroperating Characteristic curse,AUC)。 在嗜热与非嗜热蛋白的模式识别中,本文采用GA分别配合MLR和PLSMLR分类器筛选的一级序列特征较成功地识别了嗜热蛋白与非嗜热蛋白。当以训练数据的所有特征为待选集时,GA-MLR筛选出了9种AAC、38种DC和29种DC1。在留一法(Leave-One-Out,LOO)检测中,建立的MLR分类器对嗜热蛋白与非嗜热蛋白的整体识别准确度(Overall Accuracy, OA)达到95.43%,参数MCC和AUC分别达到0.908和0.979。在三个独立样本的检测中,分类器MLR的OA分别达到92.99%、93.38%和91.82%。随后,又针对不同序列长度的蛋白质利用GA-PLSMLR进行了特征筛选,最终使嗜热蛋白和非嗜热蛋白的OA达到96.24%,参数MCC和AUC的平均值分别达到0.937和0.978。在三个独立样本的检测中,PLSMLR的OA分别达到86.62%、93.34%和84.40%。基于GA的特征筛选法要优于基于ANOVA(Analysis of Variance,ANOVA)和IFFS(ImprovedForward Floating Selection,IFFS)的特征筛选方法。嗜热蛋白的特征筛选结果不仅有助于揭示蛋白质的热稳定机理,而且为热稳定酶的人工设计和工业化应用提供理论依据。 在细胞周期蛋白与非周期蛋白的模式识别中,本文利用GA从49种氨基酸的物理化学性质中筛选了一组含20种性质的组合,以这个性质组合改进的PseAAC作为输入向量时,SVM分类器在LOO检测中将识别周期蛋白与非周期蛋白的OA提高到93.29%,参数MCC和AUC分别达到0.869和0.972。与报道的结果相比,此改进的PseAAC有效地提高了对周期蛋白与非周期蛋白的OA。在一独立样本的验证中,SVM分类器的OA达到91.87%。基于GA筛选氨基酸物化性质的PseAAC改进方法可应用于其他蛋白质的模式识别研究中。 在后一篇的研究中,本文首先利用模式识别的方法加强了植物nsLTPs的识别能力,随后对转脂蛋白CaMBP10(Calmodulin Binding Protein10,CaMBP10)的磷酸化进行了分析。 植物nsLTPs为低序列同源性的蛋白家族,基于序列同源性的蛋白质识别方法并不能完全满足对nsLTPs的识别要求。基于此,本文提出了改进的基于打分矩阵内核的支持向量机(SVM with the Improved kernel of Scoring Matrix,ISM-SVM)加强nsLTPs与non-nsLTPs的识别。在5重交叉验证、10重交叉验证以及LOO验证中,ISM-SVM的OA分别为95.60%、95.84%和95.57%;参数MCC分别为0.908、0.913和0.907;三种交叉验证中的参数AUC均为0.991。与AAC-SVM和DC-SVM相比,ISM-SVM具有更好的分类准确度、敏感性和稳定性。并且ISM-SVM的分类效果同样优于其他基于AAC和DC为输入向量的分类器的效果。与SM-SVM(SVM with the kernel of Scoring Matrix,SM-SVM)相比,ISM-SVM可用于不同长度蛋白的模式识别,构建打分矩阵时采用的Needleman-Wunsch方法也比SM-SVM中采用的相同位点残基一一比对的方法更能充分提取两序列间的进化信息。最后,在一独立样本检测中,ISM-SVM的OA达到94.94%。 尽管植物nsLTPs被证明具有丰富的生理功能,但是人们对其生理功能的调节机制知之甚少。本篇最后,研究了白菜转脂蛋白CaMBP10的磷酸化,为揭示nsLTPs生理功能的调节机制奠定基础。经研究发现:拟南芥体内存在一分子量为54kDa的Ca2+依赖性蛋白激酶(Ca2+-dependent protein kinase,CDPK)能够磷酸化CaMBP10。而且,该CDPK对CaMBP10的磷酸化受不同类型的histone的激活程度不同,对该激酶活性的激活能力histone1要比histone3高约8倍。同时Ca2+和histone对该CDPK的激活具有协同效应,二者共同作用时,激酶的活力比Ca2+单独作用时增强约12倍。