基于遗传算法的特征提取在蛋白质模式识别中的应用以及植物非特异性转脂蛋白的生化分析

来源 :南开大学 | 被引量 : 0次 | 上传用户:michaelwf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质与各种生命活动息息相关,是生命活动的主要承担者。对蛋白质的生化分析有助于人们理解生命活动的机理。本文分上下两篇讲述了基于遗传算法(Genetic Algorithm,GA)的特征筛选方法对蛋白质模式识别的改进以及植物非特异性转脂蛋白(non-special Lipid Transfer Proteins,nsLTPs)生化性质的研究。  在前一篇的研究中,利用基于GA的特征筛方法对嗜热蛋白和细胞周期蛋白的模式识别方法进行了改进。  本篇首先介绍了生物信息学中蛋白质种类识别的方法,并着重介绍了基于序列提取特征的蛋白质模式识别方法及其实现的一般步骤。随后,介绍了本文中利用到的特征提取原理以及特征筛选方法、分类器(即分类算法)的数学原理和评价指标。本文用到的特征有氨基酸残基的含量(Amino Acid Composition,AAC)、二肽含量(Dipeptide Composition,DC)、含残基间隔的残基对的含量(g-gapDipeptide Composition,DCg)、氨基酸的物理化学性质、伪氨基酸组分(PseudoAmino Acid Composition,PseAAC)以及蛋白质序列的进化信息;随之综述了特征的筛选方法,并着重介绍了本文使用的GA的原理;分类器主要用到多重线性回归(Multiple Linear Regression,MLR)分类器,偏最小二乘多重线性回归(PartialLeast Square Multiple Linear Regression,PLSMLR)分类器和支持向量机(SupportVector Machine,SVM)分类器;数据集的划分方法包括自身一致性验证法(self-consistency validation)、保持验证法(holdout validation)、子样本交叉验证法(sub-sample cross validation)和独立样本验证法(independent dataset validation);分类器的评价指标采用了比例类型的评定指标、相关系数、Matthews相关系数(Matthews Correlation Coefficient,MCC)和受试者工作特征曲线(Receiver-Operating Characteristic curse,ROC)下的面积(Area Under the receiveroperating Characteristic curse,AUC)。  在嗜热与非嗜热蛋白的模式识别中,本文采用GA分别配合MLR和PLSMLR分类器筛选的一级序列特征较成功地识别了嗜热蛋白与非嗜热蛋白。当以训练数据的所有特征为待选集时,GA-MLR筛选出了9种AAC、38种DC和29种DC1。在留一法(Leave-One-Out,LOO)检测中,建立的MLR分类器对嗜热蛋白与非嗜热蛋白的整体识别准确度(Overall Accuracy, OA)达到95.43%,参数MCC和AUC分别达到0.908和0.979。在三个独立样本的检测中,分类器MLR的OA分别达到92.99%、93.38%和91.82%。随后,又针对不同序列长度的蛋白质利用GA-PLSMLR进行了特征筛选,最终使嗜热蛋白和非嗜热蛋白的OA达到96.24%,参数MCC和AUC的平均值分别达到0.937和0.978。在三个独立样本的检测中,PLSMLR的OA分别达到86.62%、93.34%和84.40%。基于GA的特征筛选法要优于基于ANOVA(Analysis of Variance,ANOVA)和IFFS(ImprovedForward Floating Selection,IFFS)的特征筛选方法。嗜热蛋白的特征筛选结果不仅有助于揭示蛋白质的热稳定机理,而且为热稳定酶的人工设计和工业化应用提供理论依据。  在细胞周期蛋白与非周期蛋白的模式识别中,本文利用GA从49种氨基酸的物理化学性质中筛选了一组含20种性质的组合,以这个性质组合改进的PseAAC作为输入向量时,SVM分类器在LOO检测中将识别周期蛋白与非周期蛋白的OA提高到93.29%,参数MCC和AUC分别达到0.869和0.972。与报道的结果相比,此改进的PseAAC有效地提高了对周期蛋白与非周期蛋白的OA。在一独立样本的验证中,SVM分类器的OA达到91.87%。基于GA筛选氨基酸物化性质的PseAAC改进方法可应用于其他蛋白质的模式识别研究中。  在后一篇的研究中,本文首先利用模式识别的方法加强了植物nsLTPs的识别能力,随后对转脂蛋白CaMBP10(Calmodulin Binding Protein10,CaMBP10)的磷酸化进行了分析。  植物nsLTPs为低序列同源性的蛋白家族,基于序列同源性的蛋白质识别方法并不能完全满足对nsLTPs的识别要求。基于此,本文提出了改进的基于打分矩阵内核的支持向量机(SVM with the Improved kernel of Scoring Matrix,ISM-SVM)加强nsLTPs与non-nsLTPs的识别。在5重交叉验证、10重交叉验证以及LOO验证中,ISM-SVM的OA分别为95.60%、95.84%和95.57%;参数MCC分别为0.908、0.913和0.907;三种交叉验证中的参数AUC均为0.991。与AAC-SVM和DC-SVM相比,ISM-SVM具有更好的分类准确度、敏感性和稳定性。并且ISM-SVM的分类效果同样优于其他基于AAC和DC为输入向量的分类器的效果。与SM-SVM(SVM with the kernel of Scoring Matrix,SM-SVM)相比,ISM-SVM可用于不同长度蛋白的模式识别,构建打分矩阵时采用的Needleman-Wunsch方法也比SM-SVM中采用的相同位点残基一一比对的方法更能充分提取两序列间的进化信息。最后,在一独立样本检测中,ISM-SVM的OA达到94.94%。  尽管植物nsLTPs被证明具有丰富的生理功能,但是人们对其生理功能的调节机制知之甚少。本篇最后,研究了白菜转脂蛋白CaMBP10的磷酸化,为揭示nsLTPs生理功能的调节机制奠定基础。经研究发现:拟南芥体内存在一分子量为54kDa的Ca2+依赖性蛋白激酶(Ca2+-dependent protein kinase,CDPK)能够磷酸化CaMBP10。而且,该CDPK对CaMBP10的磷酸化受不同类型的histone的激活程度不同,对该激酶活性的激活能力histone1要比histone3高约8倍。同时Ca2+和histone对该CDPK的激活具有协同效应,二者共同作用时,激酶的活力比Ca2+单独作用时增强约12倍。
其他文献
为了研究早期红系造血细胞的生物物理特性和细胞流变学特性.给8-12周龄BALB/c小鼠注射FVA病毒,使其脾脏产生大量原红细胞,并将之分离,用培养液IMEM培养12小时、24小时、48小
1986年Murry提出了缺血预适应的概念,为缺血/缺氧的研究开创了一片新的天地.吕国蔚教授早在60年代就发现重复急性缺氧可以使动物对再次出现的缺氧出现耐受,并在此基础上建立
目的:探讨并研究口腔修复膜材料在牙种植中引导骨再生的效应.方法:抽取我院收治的72例接受牙种植引导骨再生治疗的患者作为研究对象,将先接诊的36例患者设为对照组给予博特医
目的:研究对烧伤整形患者的护理安全管理中应用风险管理的作用效果.方法:本次研究对象均出自我院,共150例,经诊断患者均因烧伤需实施整形治疗.将研究对象从1号至150号随机编
目的:分析面部外伤整形美容缝合术小儿的护理方法.方法:对我院2009年1月~2019年11月接收行整形美容缝合术的58例面部外伤患儿临床资料开展回顾性分析,依据护理方式分成对照组(
第一部分树突细胞miRNA表达的表观遗传调控  树突状细胞是体内功能最强的专职抗原递呈细胞,能够能捕获、处理及呈递抗原,激活初始T细胞启动免疫应答,是连接固有免疫和适应性免
目的:探讨手瘢痕挛缩畸形采用外科整形手术治疗的效果.方法:抽取我院2017年1月~2019年12月收治的手瘢痕挛缩畸形患者20例为研究对象,所有患者均接受外科整形手术治疗,回顾性分
超导电力技术是对电力行业非常重要的前沿技术之一,高温超导体具有体积小,载流能力强等特点,作为载流导体应用于大容量、低损耗输电有着广泛的前景。然而目前超导体必须应用在低温环境下,超导体的交流损耗的存在,不但会增加其制冷费用,还会降低超导电力设备的稳定性。所以,对高温超导涂层导体的交流损耗的研究有着十分重要的意义。本文首先详细叙述了高温超导涂层导体的交流损耗的研究背景与国内外的研究现状。从理论方面,对
目的:分析眼睑美容整形的临床特点.方法:随机选取50例2017年1月~2019年1月期间在我院接受眼睑美容整形患者,50例患者均行眼睑美容整形手术治疗,记录患者对手术满意度、术后并
目的:探讨对面部老化患者选取光纤溶脂收紧松弛皮肤+脂肪填充方法治疗后获得的临床效果.方法:将我院2018年01月~2019年11月收治的900例面部老化患者数字奇偶法分组;治疗组(450