论文部分内容阅读
摘要 分析GenBank公布的68条蕨类、裸子、单子叶和双子叶植物的CCR蛋白,发现单子叶植物CCR基因的GC含量最高,CCR一级结构的理化性质基本一致,但主要氨基酸种类和含量不同;CCR是一类无导肽、信号肽及跨膜结构域的亲水性蛋白质,N-端存在3β-羟基类固醇脱氢酶/差向异构酶/NAD结合蛋白的结构域,存在9个功能保守区;进化树表明,该基因可用于植物高等级单元的分类;同源建模表明其三级结构稳定,建模结果可靠;CCR蛋白亚细胞定位于细胞质、叶绿体和内质网,除黑麦草和番茄外,同一物种CCR不同成员的亚细胞定位基本相同。
关键词 CCR;木质素;羟基肉桂酰辅酶 A 还原酶;生物信息学
中图分类号 S188 文献标识码 A 文章编号 0517-6611(2014)26-08894-06
Bioinformatics Analysis of CCR Enzyme in Plant
WANG Qing-dong, LIAN Zheng-han et al
(School of Life Sciences, Zhengzhou University, Zhengzhou, Henan 450001)
Abstract In order to fully understand the characteristics of the CCR enzyme, 68 CCR genes were obtained from NCBI GenBank database. Bioinformatics methods were used to analyze the physics and chemical characteristics, amino acid composition, conserved domains. The leader peptide, signal peptide, transmembrane domain and hydrophilicity of peptide of CCR protein were analyzed likewise. The phylogenetic tree were constructed and analyzed as well as 3-dimensional structure. The results showed that GC content in monocotyledon was higher than dicotyledon or gymnosperm. There were nine conserved domains in the all CCR proteins and they had a highly similarity. The physics and chemical characteristics of CCR proteins were similar, but the kinds and content of primary amino acid were different. And neither the obvious leader or signal peptide nor the transmembrane domain were detected. The data showed that CCR protein was hydrophilicity protein and one 3beta_HSD/Epimerase/NAD_binding_4 domain were existed in the N-terminus. The phylogenetic tree showed that the CCR gene might be used to treat taxa at higher rank in plant. Based on sequence conservation and protein-protein interaction, subcellular localization prediction of protein showed that CCR might mainly be locate in the cytoplasm, followed by the cytoplasm and the endoplasmic reticulum.
Key words CCR; Lignin; Cinnamoyl-CoA reductase; Bioinformatics
木质纤维素材料的资源化利用一直是饲料、能源和造纸等领域的研究热点[1]。木质素是植物细胞壁的第二大组成部分,是植物被降解和工业糖化作用的首要屏障[2]。研究表明,通过对木质素合成的遗传调控,可有效改善木质素的抗降解性,利于生物质糖化效率的提高、牧草品质的改良和制浆造纸等[1,3]。
木质素主要由3种结构单元通过多种键型连接而成,但因不同物种木质素单体的合成及单体聚合过程复杂,致使木质素的合成途径至今存在较多的争议,国内外现初步形成一个框架性认识,主要分为3步,依次为:莽草酸途径、苯丙烷类代谢途径和木质素合成特异途径,各种结构单元在细胞质内合成后,转运到木质化沉积位点,在细胞壁脱氢聚合成木质素[2,4]。羟基肉桂酰辅酶 A 还原酶(Cinnamoyl-CoA Reductase,CCR)是催化木质素特异途径的第一个关键酶[4-5],是调节木质素单体生物合成的一个重要控制点[5]。研究表明,除水稻CCR基因可能是单拷贝外,大部分植物中的CCR基因是多拷贝的,要同时调控该基因的多个成员或者针对性调控某一重要成员,须要对其DNA序列和可能编码蛋白的结构等特征进行分析[6]。而生物信息学在分析序列和预测基因功能等方面具有独特的优势[7],为此,笔者运用相关的专业软件分析了GenBank数据库目前公布的全部CCR蛋白及其编码序列,涵盖蕨类植物、裸子植物、单子叶和双子叶植物等物种,旨在全面了解它们的基本特征,為进一步利用转录因子或多基因调控策略针对性遗传改良植物奠定基础。 1 材料与方法
1.1 材料
数据来源于NCBI数据库,包括蕨类植物、裸子植物、单子叶植物及双子叶植物共计48个物种68条CCR基因的核酸及其编码的氨基酸序列(表1)。
1.2 方法
用DNAman和ORF Finder分析CCR基因的cDNA序列,用ClustalX2和Mega5.1构建系统发育树;基于NCBI Conserved Domains数据库,分析氨基酸序列的保守区;并分别用ExPASyProtParam、SMART、TargetP 1.1Server、SignalP 4.1 Server、TMHMM Server v.2.0、ExPASyProtScale、NetPhos 2.0Server、Wolf Psort Prediction及Cn3D对CCR基因编码的氨基酸平均含量、理化性质、CCR蛋白结构域、PSORT Prediction导肽、信号肽、跨膜结构域、亲/疏水性、翻译后修饰及活性位点、真核蛋白亚细胞定位和NADP及底物的结合位点进行预测和分析;最后,用Swiss-Model对CCR三级结构同源建模,并对建模结构进行处理。
2 结果与分析
2.1 CCR基因cDNA序列分析
2.1.1 GC含量。利用DNAman软件及ORF Finder对CCR基因序列进行分析,结果见表2。由表2可知,单子叶植物GC含量明显高于双子叶植物、裸子植物及蕨类植物,其中象草和毛花雀稗的GC含量最高,超过70%,而双子叶植物中苜蓿的GC含量最低,为41.2%。植物中该基因的编码区长度为951~1 119 bp,相同物种中不同拷贝类型的CCR基因
2.2 CCR氨基酸的理化性质及主要氨基酸种类分析
用ExPASyProtParam(http://web.expasy.org/protparam/)对CCR基因编码的氨基酸序列进行分析[8],发现不同植物CCR氨基酸序列基本一致,除水稻和亚麻CCR为不稳定性蛋白外(Unstable coefficient >40),其他植物的CCR均为稳定性蛋白。氨基酸组成分析表明,48个物种的CCR中含量最高的3种氨基酸均为Ala、Leu、Val;但不同科属中3种氨基酸所占比例略有不同,单子叶植物为Val(12.14%)>Ala(12.08%)>Leu(8.36%)>Asp(6.52%)>Gly(6.49%);双子叶植物中Val(9.99%)>Leu(9.52%)>Ala(8.60%)>Lys(7.52%)>Glu(6.49%);裸子植物中Val(9.99%)>Leu(9.60%)> Ala(8.54%)>Lys(7.31%)>Gly(6.60%);而蕨类植物中Val(10.73%)>Ala(9.41%)>Leu(9.05%)>Lys(6.63%)>Glu(6.28%)。此外,在48个物种中所有的CCR均为亲水性蛋白质,等电点介于5.44~8.68,其中高于7.0的有6种,介于6.0~7.0的44种,低于6.0的有18种。
2.3 氨基酸序列保守区分析 采用ClustalX(v2.1)对CCR基因编码的氨基酸序列的保守区进行分析,由N末端到C末端依次可得到9个保守区域:VCVTGAGGFFASWLVKLLL;GYTVKGTVRNPDD;GCDGVFHTASPVT;VRRVVFTSSIGAVYMDPN;CWSDLDFCKNTKNWYCYGKAVAE;GVDLVVIN PVLVLGPLLQ;KTYANSVQAYVHVKDVALAH;VYESPSASGRYLCAE;ILAKFFPEYPIPTKCSD。用NCBI的Conserved domains数据库对9个保守区进一步分析[9],发现9个保守区共同构成NADB_Rossmann superfamily,其功能为Rossmann-fold NAD(P)(+)- binding proteins,在反应中起结合底物和催化作用。
2.4 CCR蛋白结构及功能分析
2.4.1 CCR蛋白导肽预测。
导肽是新生肽链N-端的一段氨基酸序列,对于蛋白质的亚细胞定位具有重要作用。利用TargetP 1.1Server对CCR基因编码的氨基酸进行预测和分析,发现68条序列中有5条(NP_001280189,CAA13176,NP_001105488,ACD13265,XP_002889086)可能存在信号肽,信号肽预测置信等级较高,有待进一步分析,剩余序列中只有银合欢CCR蛋白可能含有叶绿体转运肽,长度为22个氨基酸,其他62条CCR蛋白预测结果分值均较低,不含叶绿体转运肽及线粒体靶向肽。
2.4.2 CCR蛋白信号肽的预测。
信号肽是位于蛋白质N-端,指导分泌性蛋白质到内质网等部位合成,在蛋白质合成结束前被切除的一段序列。通常由15~30个氨基酸组成,包括带正电荷的N-末端,一个中间疏水序列,它是信号肽的主要功能区,以及一个带负电荷的C-末端。用SignalP 4.1 Server对CCR基因编码的氨基酸序列进行分析[10],并与TargetP预测结果比较,发现CCR蛋白不含信号肽。
2.4.3 CCR蛋白跨膜結构域的预测及分析。
蛋白质在质膜上发挥作用时,根据亲/疏水性氨基酸的数目和分布情况,可以对蛋白质的跨膜结构域进行预测。用TMHMM Server(v.2.0)对CCR跨膜结构域的预测表明(图2),仅光皮桦CCR蛋白(BlCCR)和丹参CCR蛋白(SmCCR2)存在跨膜区,其他66条CCR蛋白不存在跨膜区。
2.4.4 CCR蛋白亚细胞定位预测与分析。
用Wolf Psort Prediction的最邻近节点算法(k值为14)对CCR的氨基酸序列进行亚细胞定位预测[11]。根据预测结果,不同物种中CCR蛋白的定位有所不同,在细胞膜、叶绿体、线粒体、细胞核、微体中均有分布的可能。68个CCR蛋白最可能的分布情况:62%定位于细胞质,21%定位在叶绿体,剩余7%则定位于内质网。同一物种CCR蛋白不同成员的亚细胞定位基本相同,只有黑麦草和番茄中不同成员的亚细胞定位存在较大差异(表3)。此外,银合欢的CCR蛋白因明显具有叶绿体转运肽的特征,其定位于叶绿体的可能性最大(表3)。 2.4.5 CCR蛋白亲/疏水性的预测及分析。
用ExPASyProtScale预测CCR蛋白的亲/疏水性特征,结果表明,多肽链中,亲水性氨基酸与疏水性氨基酸均匀分布,且亲水性氨基酸的总数高于疏水性氨基酸,推测CCR蛋白可能为亲水性蛋白质,预测结果与“2.2”氨基酸理化性质分析结果一致。
2.4.6 CCR蛋白翻译后修饰预测。
多肽链合成后,一般需经过磷酸化、糖基化或甲基化等修饰后,才能完成正确折叠,形成有效的三维结构,发挥特定功能。用NetPhos 2.0 Server对68条序列进行翻译后修饰预测[12](图3),发现不同物种的磷酸化修饰氨基酸的数目不同,总数15~18个,其中裸子植物磷酸化氨基酸数目较被子植物少。α-N-末端乙酰化修饰是一种蛋白质的共翻译修饰,当新生肽链从核糖体中露出25~50个氨基酸残基,即肽链与核糖体结合时发生修饰,作为翻译后的修饰作用并不多见。用NetAcet 1.0 Server对蛋白质序列乙酰化修饰的分析结果表明,泡桐PsCCR、蓝莓VcCCR、油茶CoCCR、梅花PmCCR1、马铃薯StCCR、水稻OsCCR、玉米ZmCCR2和番茄LeCCR2可能存在α-N-末端乙酰化修饰,其他蛋白均不发生乙酰化修饰。此外,CCR蛋白不含信号肽(见“2.4.2”),可能在胞内发挥生物学功能,发生糖基化修饰的几率很高。O-GlcNAc糖基化修饰作为一种特殊的蛋白质翻译后修饰形式,动态调节细胞信号传导途径中很多酶的功能,并与磷酸化修饰有关联。用YinOYang 1.2 Server对N-乙酰葡萄糖(O-β-GlcNAc)修饰位点进行分析,发现单子叶植物中发生糖基化修饰的位点明显多于其他科植物;而同一物种不同类型的成员发生糖基化修饰的数目接近。Ser和Thr可能既发生糖基化修饰又发生磷酸化修饰,而细胞中此类氨基酸残基位点发生磷酸化和糖基化修饰的特征是动态可逆的(Yin-Yang位点)。
2.4.7 CCR二级结构特征预测。
蛋白质分子三维结构是由二级结构组装而成,二级结构的种类(主要包括α-螺旋,β-折叠,β-转角和不规则卷曲等)(图4)和组成的空间结构方式有限,对二级结构的预测成为基于蛋白质一级结构预测其空间结构的关键步骤。用SOPMA对68条氨基酸序列进行分析,发现不同物种中α-螺旋、延伸链、不规则卷曲和β-转角的具体含量仅存在微小差异,未发现CCR蛋白含有β-折叠。CCR蛋白二级结构种类中,α-螺旋(42.80%)与不规则卷曲(36.18%)含量较高,延伸链(14.20%)和β-转角(6.83%)含量稍低。而不同物种CCR 4种二级结构的含量不同,单子叶与裸子植物中的α-螺旋含量明显高于双子叶和蕨类植物,但不规则卷曲、β-转角及延伸链的含量差异不大。
2.4.8 CCR蛋白结构域的预测及分析。
结构域分析用Conserved Domain database数据库,相匹配的结构域模型为FR_SDR_e[10]。用SMART分析CCR的氨基酸序列,表明其N-末端可能存在3β-羟基类固醇脱氢酶/差向异构酶/NAD结合蛋白的结构域。每一种酶所具有的独特催化能力是由其特殊部位的结构所决定的,通常,少数的氨基酸构成底物结合位点,参与催化反应。分析拟南芥CCR1和CCR2的活性位点:A(103/98),S(127/122),Y(161/156),K(165/160),发现CCR1和CCR2活性位点编号虽然不同,但氨基酸相同;同样的现象也出现在NADP 结合位点和底物结合位点上,NADP结合位点:G(17/12),G(19/14),G(20/15),Y(21/16),I(22/17),V(41/36)R(42/37),A(67/62),D(68/63),L(69/64),T(88/83),A(89/84),S(90/94),P(91/86),M(92/87),T(125/120),S(126/121),Y(161/156),K(165/160),P(188/183),V(189/184),L(190/185),V(191/186),S(203/198);底物结合位点:M(92/87),D(94/89),S(127/122),I(128/123),G(129/124),Y(130/125),Y(161/126),P(188/183),V(189/184),L(190/185),S(203/198),H(206/201),N(220/215),V(224/219),F(290/285)。进一步比较CCR1和CCR2的全长氨基酸序列,发现CCR2蛋白的5′-端比CCR1少一段由5个氨基酸(VASPA)组成的序列,而两者的中部核心区段存在较高的相似性,约为86.60%。
2.4.9 CCR三级结构预测和分析。
蛋白质只有折叠成正確的三级结构才能有效行使其生物学功能,对蛋白质三维结构的分析有助于进一步理解结构和功能的关系。目前,对蛋白质三维结构的分析主要依赖于X-ray和NMR(核磁共振)等技术,应用X射线晶体衍射能较快地测得晶体完整性的大量信息且不损伤样品,无污染,但许多蛋白质很难结晶或很难获得足够大的可供分析的晶体,使得其应用大受限制;而NMR技术的应用克服了结晶的限制并可对溶液中的蛋白质进行检测,但受研究对象的相对分子质量等因素限制;而用生物信息学的方法可以很方便地预测蛋白质的三级结构,其结果和用物理方法检测的结果有很高的一致性。该研究用Swiss-Model对植物CCR进行同源建模,并处理建模结构 [13](图5、6)。
结果表明,CCR蛋白以α-螺旋和无规则卷曲为主要结构元件,延伸链分布于整条肽链之中。构建的拟南芥CCR1蛋白3D模型显示,NADP结合位点、底物结合位点、活性位点构成一个腔状结构,可与反应物特异性结合,其中161号位Tyr是三者的共用残基(青色标识)。 3 讨论
阻碍木质纤维素乙醇发酵大规模生产有2个主要因素:一是前期预处理的投入较大和由此带来的环境污染问题,二是纤维素复合酶的过高价格增加了生产成本。预处理的目的主要是为了解除木质素与半纤维素对纤维素的束缚,使得纤维素水解酶更有效地与纤维素接触[1-4]。目前,实现这一目标的有效措施之一是利用基因工程技术调控植物的木质素代谢途径,现已取得一些可喜的进展,但就工业化应用而言,这些研究尚未取得突破性进展,仍处于探索阶段[14-15]。因此,运用生物信息学和分子生物学等方法和技术,分析植物木质素代谢调控系统涉及的关键酶和转录因子的基因序列、氨基酸序列和所编码蛋白质的结构功能域特点以及它们相互之间的化学键连接类型和特征等,可为进一步改变高等植物的木质纤维素组分和结构,遗传改良木质纤维素材料的可降解性提供指导。
高等植物功能基因常具有多拷贝的特征,其编码蛋白的不同成员间常存在特定的功能分化,利用基因调控针对性遗傳改良植物的前提是对功能基因及其编码的蛋白质等进行分析[14],在此领域,生物信息学具有一些不可比拟的优点,合理运用生物信息学技术,可有效辅助实验生物学进行相关研究。
参考文献
[1] TANG W,TANG A Y.Transgenic woody plants for biofuel[J].J For Res,2014,25(2):225-236.
[2] 蒋挺大.木质素[M].2版 北京:化学工业出版社,2009.
[3] HIMMEL M E.生物质抗降解屏障-解构植物细胞壁产生物能 [M].王禄山,张正,等,译.北京:化学工业出版社,2010.
[4] SIMMONS B A,DOMINIQUE LOQUE,JOHN RALPH.Advances in modifying lignin for enhanced biofuel production[J].Curr Opin Plant Biol,2010,13:1-8.
[5] LACOMBE E,HAWKINS S,VAN DOORSSELAERE J,et al.Cinnamoyl CoA Reductase,the first committed enzyme of the lignin branch biosynthetic pathway:cloning,expression and phylogenetic relationships[J].Plant J,1997,11(3):429-441.
[6] LI L,CHENG X,LU S,et al.Clarification of cinnamoyl co-enzyme A reductase catalysis in monolignol biosynthesis of Aspen[J].Plant Cell Physiol,2005,46(7):1073-1082.
[7] 万晶,冯沛春,王万军.细胞周期蛋白家族的生物信息学分析[J].安徽农业科学,2012,40(30):14668-14672.
[8] GASTEIGER E,HOOGLAND C,GATTIKER A,et al.Protein Identification and Analysis Tools on the ExPASy Server[M]//WALKER J M.The Proteomics Protocols Handbook.NJ,USA:Humana Press,2005:571-607.
[9] MARCHLER-BAUER A.CDD:a Conserved Domain Database for the functional annotation of proteins[J].Nucleic Acids Res,2011,39:225-229.
[10] PETERSEN T N,BRUNAK S,VON HEIJNE G,et al.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nat Methods,2011,8:785-786.
[11] HORTON P,PARK K J,OBAYASHI T,et al.WoLF PSORT:Protein Localization Predictor[J].Nucleic Acids Research,2007,35:585-587.
[12] BLOM N,GAMMELTOFT S,BRUNAK S.Sequence and structure based prediction of eukaryotic protein phosphorylation sites[J].J Mol Biol,1999,294(5):1351-1362.
[13] ARNOLD K,BORDOLI L,KOPP J,et al.The SWISS-MODEL Workspace:A web-based environment for protein structure homology modelling[J].Bioinformatics,2006,22:195-201.
[14] 王关林,方宏筠.植物基因工程[M].2版.北京:科学出版社,2002.
[15] 张丽,胡尚连,曹颖,等.植物木质素生物合成转录因子及调控遗传网络分析[J].福建林业科技,2013,40(3):1-5.
关键词 CCR;木质素;羟基肉桂酰辅酶 A 还原酶;生物信息学
中图分类号 S188 文献标识码 A 文章编号 0517-6611(2014)26-08894-06
Bioinformatics Analysis of CCR Enzyme in Plant
WANG Qing-dong, LIAN Zheng-han et al
(School of Life Sciences, Zhengzhou University, Zhengzhou, Henan 450001)
Abstract In order to fully understand the characteristics of the CCR enzyme, 68 CCR genes were obtained from NCBI GenBank database. Bioinformatics methods were used to analyze the physics and chemical characteristics, amino acid composition, conserved domains. The leader peptide, signal peptide, transmembrane domain and hydrophilicity of peptide of CCR protein were analyzed likewise. The phylogenetic tree were constructed and analyzed as well as 3-dimensional structure. The results showed that GC content in monocotyledon was higher than dicotyledon or gymnosperm. There were nine conserved domains in the all CCR proteins and they had a highly similarity. The physics and chemical characteristics of CCR proteins were similar, but the kinds and content of primary amino acid were different. And neither the obvious leader or signal peptide nor the transmembrane domain were detected. The data showed that CCR protein was hydrophilicity protein and one 3beta_HSD/Epimerase/NAD_binding_4 domain were existed in the N-terminus. The phylogenetic tree showed that the CCR gene might be used to treat taxa at higher rank in plant. Based on sequence conservation and protein-protein interaction, subcellular localization prediction of protein showed that CCR might mainly be locate in the cytoplasm, followed by the cytoplasm and the endoplasmic reticulum.
Key words CCR; Lignin; Cinnamoyl-CoA reductase; Bioinformatics
木质纤维素材料的资源化利用一直是饲料、能源和造纸等领域的研究热点[1]。木质素是植物细胞壁的第二大组成部分,是植物被降解和工业糖化作用的首要屏障[2]。研究表明,通过对木质素合成的遗传调控,可有效改善木质素的抗降解性,利于生物质糖化效率的提高、牧草品质的改良和制浆造纸等[1,3]。
木质素主要由3种结构单元通过多种键型连接而成,但因不同物种木质素单体的合成及单体聚合过程复杂,致使木质素的合成途径至今存在较多的争议,国内外现初步形成一个框架性认识,主要分为3步,依次为:莽草酸途径、苯丙烷类代谢途径和木质素合成特异途径,各种结构单元在细胞质内合成后,转运到木质化沉积位点,在细胞壁脱氢聚合成木质素[2,4]。羟基肉桂酰辅酶 A 还原酶(Cinnamoyl-CoA Reductase,CCR)是催化木质素特异途径的第一个关键酶[4-5],是调节木质素单体生物合成的一个重要控制点[5]。研究表明,除水稻CCR基因可能是单拷贝外,大部分植物中的CCR基因是多拷贝的,要同时调控该基因的多个成员或者针对性调控某一重要成员,须要对其DNA序列和可能编码蛋白的结构等特征进行分析[6]。而生物信息学在分析序列和预测基因功能等方面具有独特的优势[7],为此,笔者运用相关的专业软件分析了GenBank数据库目前公布的全部CCR蛋白及其编码序列,涵盖蕨类植物、裸子植物、单子叶和双子叶植物等物种,旨在全面了解它们的基本特征,為进一步利用转录因子或多基因调控策略针对性遗传改良植物奠定基础。 1 材料与方法
1.1 材料
数据来源于NCBI数据库,包括蕨类植物、裸子植物、单子叶植物及双子叶植物共计48个物种68条CCR基因的核酸及其编码的氨基酸序列(表1)。
1.2 方法
用DNAman和ORF Finder分析CCR基因的cDNA序列,用ClustalX2和Mega5.1构建系统发育树;基于NCBI Conserved Domains数据库,分析氨基酸序列的保守区;并分别用ExPASyProtParam、SMART、TargetP 1.1Server、SignalP 4.1 Server、TMHMM Server v.2.0、ExPASyProtScale、NetPhos 2.0Server、Wolf Psort Prediction及Cn3D对CCR基因编码的氨基酸平均含量、理化性质、CCR蛋白结构域、PSORT Prediction导肽、信号肽、跨膜结构域、亲/疏水性、翻译后修饰及活性位点、真核蛋白亚细胞定位和NADP及底物的结合位点进行预测和分析;最后,用Swiss-Model对CCR三级结构同源建模,并对建模结构进行处理。
2 结果与分析
2.1 CCR基因cDNA序列分析
2.1.1 GC含量。利用DNAman软件及ORF Finder对CCR基因序列进行分析,结果见表2。由表2可知,单子叶植物GC含量明显高于双子叶植物、裸子植物及蕨类植物,其中象草和毛花雀稗的GC含量最高,超过70%,而双子叶植物中苜蓿的GC含量最低,为41.2%。植物中该基因的编码区长度为951~1 119 bp,相同物种中不同拷贝类型的CCR基因
2.2 CCR氨基酸的理化性质及主要氨基酸种类分析
用ExPASyProtParam(http://web.expasy.org/protparam/)对CCR基因编码的氨基酸序列进行分析[8],发现不同植物CCR氨基酸序列基本一致,除水稻和亚麻CCR为不稳定性蛋白外(Unstable coefficient >40),其他植物的CCR均为稳定性蛋白。氨基酸组成分析表明,48个物种的CCR中含量最高的3种氨基酸均为Ala、Leu、Val;但不同科属中3种氨基酸所占比例略有不同,单子叶植物为Val(12.14%)>Ala(12.08%)>Leu(8.36%)>Asp(6.52%)>Gly(6.49%);双子叶植物中Val(9.99%)>Leu(9.52%)>Ala(8.60%)>Lys(7.52%)>Glu(6.49%);裸子植物中Val(9.99%)>Leu(9.60%)> Ala(8.54%)>Lys(7.31%)>Gly(6.60%);而蕨类植物中Val(10.73%)>Ala(9.41%)>Leu(9.05%)>Lys(6.63%)>Glu(6.28%)。此外,在48个物种中所有的CCR均为亲水性蛋白质,等电点介于5.44~8.68,其中高于7.0的有6种,介于6.0~7.0的44种,低于6.0的有18种。
2.3 氨基酸序列保守区分析 采用ClustalX(v2.1)对CCR基因编码的氨基酸序列的保守区进行分析,由N末端到C末端依次可得到9个保守区域:VCVTGAGGFFASWLVKLLL;GYTVKGTVRNPDD;GCDGVFHTASPVT;VRRVVFTSSIGAVYMDPN;CWSDLDFCKNTKNWYCYGKAVAE;GVDLVVIN PVLVLGPLLQ;KTYANSVQAYVHVKDVALAH;VYESPSASGRYLCAE;ILAKFFPEYPIPTKCSD。用NCBI的Conserved domains数据库对9个保守区进一步分析[9],发现9个保守区共同构成NADB_Rossmann superfamily,其功能为Rossmann-fold NAD(P)(+)- binding proteins,在反应中起结合底物和催化作用。
2.4 CCR蛋白结构及功能分析
2.4.1 CCR蛋白导肽预测。
导肽是新生肽链N-端的一段氨基酸序列,对于蛋白质的亚细胞定位具有重要作用。利用TargetP 1.1Server对CCR基因编码的氨基酸进行预测和分析,发现68条序列中有5条(NP_001280189,CAA13176,NP_001105488,ACD13265,XP_002889086)可能存在信号肽,信号肽预测置信等级较高,有待进一步分析,剩余序列中只有银合欢CCR蛋白可能含有叶绿体转运肽,长度为22个氨基酸,其他62条CCR蛋白预测结果分值均较低,不含叶绿体转运肽及线粒体靶向肽。
2.4.2 CCR蛋白信号肽的预测。
信号肽是位于蛋白质N-端,指导分泌性蛋白质到内质网等部位合成,在蛋白质合成结束前被切除的一段序列。通常由15~30个氨基酸组成,包括带正电荷的N-末端,一个中间疏水序列,它是信号肽的主要功能区,以及一个带负电荷的C-末端。用SignalP 4.1 Server对CCR基因编码的氨基酸序列进行分析[10],并与TargetP预测结果比较,发现CCR蛋白不含信号肽。
2.4.3 CCR蛋白跨膜結构域的预测及分析。
蛋白质在质膜上发挥作用时,根据亲/疏水性氨基酸的数目和分布情况,可以对蛋白质的跨膜结构域进行预测。用TMHMM Server(v.2.0)对CCR跨膜结构域的预测表明(图2),仅光皮桦CCR蛋白(BlCCR)和丹参CCR蛋白(SmCCR2)存在跨膜区,其他66条CCR蛋白不存在跨膜区。
2.4.4 CCR蛋白亚细胞定位预测与分析。
用Wolf Psort Prediction的最邻近节点算法(k值为14)对CCR的氨基酸序列进行亚细胞定位预测[11]。根据预测结果,不同物种中CCR蛋白的定位有所不同,在细胞膜、叶绿体、线粒体、细胞核、微体中均有分布的可能。68个CCR蛋白最可能的分布情况:62%定位于细胞质,21%定位在叶绿体,剩余7%则定位于内质网。同一物种CCR蛋白不同成员的亚细胞定位基本相同,只有黑麦草和番茄中不同成员的亚细胞定位存在较大差异(表3)。此外,银合欢的CCR蛋白因明显具有叶绿体转运肽的特征,其定位于叶绿体的可能性最大(表3)。 2.4.5 CCR蛋白亲/疏水性的预测及分析。
用ExPASyProtScale预测CCR蛋白的亲/疏水性特征,结果表明,多肽链中,亲水性氨基酸与疏水性氨基酸均匀分布,且亲水性氨基酸的总数高于疏水性氨基酸,推测CCR蛋白可能为亲水性蛋白质,预测结果与“2.2”氨基酸理化性质分析结果一致。
2.4.6 CCR蛋白翻译后修饰预测。
多肽链合成后,一般需经过磷酸化、糖基化或甲基化等修饰后,才能完成正确折叠,形成有效的三维结构,发挥特定功能。用NetPhos 2.0 Server对68条序列进行翻译后修饰预测[12](图3),发现不同物种的磷酸化修饰氨基酸的数目不同,总数15~18个,其中裸子植物磷酸化氨基酸数目较被子植物少。α-N-末端乙酰化修饰是一种蛋白质的共翻译修饰,当新生肽链从核糖体中露出25~50个氨基酸残基,即肽链与核糖体结合时发生修饰,作为翻译后的修饰作用并不多见。用NetAcet 1.0 Server对蛋白质序列乙酰化修饰的分析结果表明,泡桐PsCCR、蓝莓VcCCR、油茶CoCCR、梅花PmCCR1、马铃薯StCCR、水稻OsCCR、玉米ZmCCR2和番茄LeCCR2可能存在α-N-末端乙酰化修饰,其他蛋白均不发生乙酰化修饰。此外,CCR蛋白不含信号肽(见“2.4.2”),可能在胞内发挥生物学功能,发生糖基化修饰的几率很高。O-GlcNAc糖基化修饰作为一种特殊的蛋白质翻译后修饰形式,动态调节细胞信号传导途径中很多酶的功能,并与磷酸化修饰有关联。用YinOYang 1.2 Server对N-乙酰葡萄糖(O-β-GlcNAc)修饰位点进行分析,发现单子叶植物中发生糖基化修饰的位点明显多于其他科植物;而同一物种不同类型的成员发生糖基化修饰的数目接近。Ser和Thr可能既发生糖基化修饰又发生磷酸化修饰,而细胞中此类氨基酸残基位点发生磷酸化和糖基化修饰的特征是动态可逆的(Yin-Yang位点)。
2.4.7 CCR二级结构特征预测。
蛋白质分子三维结构是由二级结构组装而成,二级结构的种类(主要包括α-螺旋,β-折叠,β-转角和不规则卷曲等)(图4)和组成的空间结构方式有限,对二级结构的预测成为基于蛋白质一级结构预测其空间结构的关键步骤。用SOPMA对68条氨基酸序列进行分析,发现不同物种中α-螺旋、延伸链、不规则卷曲和β-转角的具体含量仅存在微小差异,未发现CCR蛋白含有β-折叠。CCR蛋白二级结构种类中,α-螺旋(42.80%)与不规则卷曲(36.18%)含量较高,延伸链(14.20%)和β-转角(6.83%)含量稍低。而不同物种CCR 4种二级结构的含量不同,单子叶与裸子植物中的α-螺旋含量明显高于双子叶和蕨类植物,但不规则卷曲、β-转角及延伸链的含量差异不大。
2.4.8 CCR蛋白结构域的预测及分析。
结构域分析用Conserved Domain database数据库,相匹配的结构域模型为FR_SDR_e[10]。用SMART分析CCR的氨基酸序列,表明其N-末端可能存在3β-羟基类固醇脱氢酶/差向异构酶/NAD结合蛋白的结构域。每一种酶所具有的独特催化能力是由其特殊部位的结构所决定的,通常,少数的氨基酸构成底物结合位点,参与催化反应。分析拟南芥CCR1和CCR2的活性位点:A(103/98),S(127/122),Y(161/156),K(165/160),发现CCR1和CCR2活性位点编号虽然不同,但氨基酸相同;同样的现象也出现在NADP 结合位点和底物结合位点上,NADP结合位点:G(17/12),G(19/14),G(20/15),Y(21/16),I(22/17),V(41/36)R(42/37),A(67/62),D(68/63),L(69/64),T(88/83),A(89/84),S(90/94),P(91/86),M(92/87),T(125/120),S(126/121),Y(161/156),K(165/160),P(188/183),V(189/184),L(190/185),V(191/186),S(203/198);底物结合位点:M(92/87),D(94/89),S(127/122),I(128/123),G(129/124),Y(130/125),Y(161/126),P(188/183),V(189/184),L(190/185),S(203/198),H(206/201),N(220/215),V(224/219),F(290/285)。进一步比较CCR1和CCR2的全长氨基酸序列,发现CCR2蛋白的5′-端比CCR1少一段由5个氨基酸(VASPA)组成的序列,而两者的中部核心区段存在较高的相似性,约为86.60%。
2.4.9 CCR三级结构预测和分析。
蛋白质只有折叠成正確的三级结构才能有效行使其生物学功能,对蛋白质三维结构的分析有助于进一步理解结构和功能的关系。目前,对蛋白质三维结构的分析主要依赖于X-ray和NMR(核磁共振)等技术,应用X射线晶体衍射能较快地测得晶体完整性的大量信息且不损伤样品,无污染,但许多蛋白质很难结晶或很难获得足够大的可供分析的晶体,使得其应用大受限制;而NMR技术的应用克服了结晶的限制并可对溶液中的蛋白质进行检测,但受研究对象的相对分子质量等因素限制;而用生物信息学的方法可以很方便地预测蛋白质的三级结构,其结果和用物理方法检测的结果有很高的一致性。该研究用Swiss-Model对植物CCR进行同源建模,并处理建模结构 [13](图5、6)。
结果表明,CCR蛋白以α-螺旋和无规则卷曲为主要结构元件,延伸链分布于整条肽链之中。构建的拟南芥CCR1蛋白3D模型显示,NADP结合位点、底物结合位点、活性位点构成一个腔状结构,可与反应物特异性结合,其中161号位Tyr是三者的共用残基(青色标识)。 3 讨论
阻碍木质纤维素乙醇发酵大规模生产有2个主要因素:一是前期预处理的投入较大和由此带来的环境污染问题,二是纤维素复合酶的过高价格增加了生产成本。预处理的目的主要是为了解除木质素与半纤维素对纤维素的束缚,使得纤维素水解酶更有效地与纤维素接触[1-4]。目前,实现这一目标的有效措施之一是利用基因工程技术调控植物的木质素代谢途径,现已取得一些可喜的进展,但就工业化应用而言,这些研究尚未取得突破性进展,仍处于探索阶段[14-15]。因此,运用生物信息学和分子生物学等方法和技术,分析植物木质素代谢调控系统涉及的关键酶和转录因子的基因序列、氨基酸序列和所编码蛋白质的结构功能域特点以及它们相互之间的化学键连接类型和特征等,可为进一步改变高等植物的木质纤维素组分和结构,遗传改良木质纤维素材料的可降解性提供指导。
高等植物功能基因常具有多拷贝的特征,其编码蛋白的不同成员间常存在特定的功能分化,利用基因调控针对性遗傳改良植物的前提是对功能基因及其编码的蛋白质等进行分析[14],在此领域,生物信息学具有一些不可比拟的优点,合理运用生物信息学技术,可有效辅助实验生物学进行相关研究。
参考文献
[1] TANG W,TANG A Y.Transgenic woody plants for biofuel[J].J For Res,2014,25(2):225-236.
[2] 蒋挺大.木质素[M].2版 北京:化学工业出版社,2009.
[3] HIMMEL M E.生物质抗降解屏障-解构植物细胞壁产生物能 [M].王禄山,张正,等,译.北京:化学工业出版社,2010.
[4] SIMMONS B A,DOMINIQUE LOQUE,JOHN RALPH.Advances in modifying lignin for enhanced biofuel production[J].Curr Opin Plant Biol,2010,13:1-8.
[5] LACOMBE E,HAWKINS S,VAN DOORSSELAERE J,et al.Cinnamoyl CoA Reductase,the first committed enzyme of the lignin branch biosynthetic pathway:cloning,expression and phylogenetic relationships[J].Plant J,1997,11(3):429-441.
[6] LI L,CHENG X,LU S,et al.Clarification of cinnamoyl co-enzyme A reductase catalysis in monolignol biosynthesis of Aspen[J].Plant Cell Physiol,2005,46(7):1073-1082.
[7] 万晶,冯沛春,王万军.细胞周期蛋白家族的生物信息学分析[J].安徽农业科学,2012,40(30):14668-14672.
[8] GASTEIGER E,HOOGLAND C,GATTIKER A,et al.Protein Identification and Analysis Tools on the ExPASy Server[M]//WALKER J M.The Proteomics Protocols Handbook.NJ,USA:Humana Press,2005:571-607.
[9] MARCHLER-BAUER A.CDD:a Conserved Domain Database for the functional annotation of proteins[J].Nucleic Acids Res,2011,39:225-229.
[10] PETERSEN T N,BRUNAK S,VON HEIJNE G,et al.SignalP 4.0:Discriminating signal peptides from transmembrane regions[J].Nat Methods,2011,8:785-786.
[11] HORTON P,PARK K J,OBAYASHI T,et al.WoLF PSORT:Protein Localization Predictor[J].Nucleic Acids Research,2007,35:585-587.
[12] BLOM N,GAMMELTOFT S,BRUNAK S.Sequence and structure based prediction of eukaryotic protein phosphorylation sites[J].J Mol Biol,1999,294(5):1351-1362.
[13] ARNOLD K,BORDOLI L,KOPP J,et al.The SWISS-MODEL Workspace:A web-based environment for protein structure homology modelling[J].Bioinformatics,2006,22:195-201.
[14] 王关林,方宏筠.植物基因工程[M].2版.北京:科学出版社,2002.
[15] 张丽,胡尚连,曹颖,等.植物木质素生物合成转录因子及调控遗传网络分析[J].福建林业科技,2013,40(3):1-5.