蛋白质编码序列对蛋白质折叠速率的影响

来源 :内蒙古大学 | 被引量 : 2次 | 上传用户:zeroxu001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质折叠问题被列为“21世纪的生物物理学”的重要课题,是分子生物学中心法则尚未解决的一个重大生物学问题。其中重要任务之一便是确定蛋白质折叠速率的决定因素,从而理解蛋白质的折叠机理。目前,人们普遍认为决定蛋白质折叠速率的因素主要来自于构成蛋白质的氨基酸序列和各级结构以及环境和温度。我们认为,除此之外,决定蛋白质折叠速率的信息还来自于蛋白质编码序列,它们在调节蛋白质折叠过程中起到重要作用。本文将探讨编码序列对蛋白质折叠速率的影响。蛋白质编码序列不仅包含了编码蛋白的遗传语言,还包含了其它丰富的信息内容。这主要表现在密码子的“摆尾”现象,即密码子第三位点碱基使用的自由度问题。同义密码子使用的作用之一是调节编码序列的高级结构,而最普遍的高级结构单元是回文结构。已有研究表明一些特殊分布的回文结构具有非常重要的生物学功能,而且许多疾病与回文结构相关。所以对回文结构的构成进行全面深入的研究,是全面了解核酸序列信息功能的重要方面之一。另外,回文结构在一定程度上反映了mRNA的序列信息和结构信息。若编码序列对蛋白质折叠速率有影响的话,则应该在编码序列的回文结构和同义密码子使用中体现出来。基于这个思路,我们的主要研究内容如下:1.在蛋白质层面上探究氨基酸片段的平均极性与蛋白质折叠速率的关系。以四种病毒(SARS病毒、艾滋病病毒、丙型肝炎病毒和乙型肝炎病毒)的蛋白质序列以及大肠杆菌60个蛋白酶的所有α螺旋和β折叠片段为研究对象,计算了各片段的折叠速率和平均极性,分别在各物种的α螺旋和β折叠两类二级结构片段中分析了折叠速率和平均极性的相关性。得到结论:不论是病毒蛋白质还是大肠杆菌中的蛋白酶,其中两类氨基酸片段的平均极性与折叠速率都是极显著相关的:对于所有的α片段,二者呈线性正相关;而对于所有的β片段,二者成线性负相关。结果证实了在蛋白质折叠中,氨基酸的极性起着非常重要的作用。2.编码序列中回文GC含量和回文密度对氨基酸片段平均极性和折叠速率之间关系的影响。定义了蛋白编码序列片段的回文GC含量及回文密度两参量。基于以上四种病毒蛋白质序列的α螺旋片段及β折叠片段的折叠速率与其平均极性之间的相关性,分析了回文GC含量及回文密度对这一相关性的影响。发现这两个参量确实对氨基酸片段折叠速率和平均极性之间的关系有影响。统计分析表明这两个来自编码序列的参量与氨基酸片段的平均极性无显著关系。这间接说明相应编码序列片段的回文GC含量及回文密度影响了蛋白质的折叠速度,且蛋白质折叠速率与回文两参量之间均呈正相关。进一步分析表明影响的根源来自于回文结构的复杂性或可变性和同义密码子的使用偏好,而不是来自于从密码子到氨基酸的翻译信息。这说明蛋白质编码序列确实携带有影响肽链折叠速率乃至蛋白质结构的信息。3.为了从多个角度印证mRNA结构和序列对蛋白质折叠速率的影响,先选择编码序列的序列参数—GC含量来做初步分析。基于Gromiha给出的13个全β类蛋白质,得到相应编码序列的GC含量并将它加入到Gromiha基于蛋白质序列4个参数的预测折叠速率回归方程中来检验GC含量在蛋白质折叠过程中的作用。与Gromiha的结果比较,预测值和实验值之间的相关系数提高了2%,即从Gromiha的0.96增加到0.98,总体方差从0.50降到0.27,卡方检验值从3.53(p=0.01)降到3.35(p=0.008)。结果表明GC含量对预测蛋白质折叠速率是有效的,意味着蛋白质编码序列的GC含量确实对蛋白质折叠速率有影响。进一步分析也表明这种影响主要来自于密码子的第三位点以及它与第二位点的关联,而不是来自于从密码子到氨基酸的翻译信息。4.虽然加入编码序列的GC含量后预测蛋白质折叠速率的结果有所改善,但回归方程的Jackknife检验(GC含量参数项的p=0.087)结果表明通常的GC含量并未完全涵盖编码序列中影响蛋白质折叠速率的主要信息。我们分析,出现这样结果是由于编码序列的GC含量不能反映编码序列的结构信息。于是,我们定义了一个既能涵盖序列又能包含序列结构的一个参数,称为回文GC含量。用编码序列中的回文GC含量代替GC含量做同样的分析。与Gromiha的结果比较,蛋白质折叠速率的预测值与实验值之间的相关系数提高了3%,即从Gromiha的0.96增加到0.99,总体方差从0.50降到0.24,卡方检验值从3.53(p=0.01)降到2.86(p=0.004),而且我们新的结果通过了Jackknife检验。这表明蛋白质编码序列中回文GC含量对蛋白质折叠速率有更大的影响。意味着蛋白质编码序列的结构和序列组成是影响蛋白质折叠速率的主要因素。进一步分析也表明这种影响一部分来自于回文结构的复杂性和可变性,另一部分来自于同义密码子的使用或者说是密码子第三位碱基的使用。5.选择已知折叠速率的18个全α类蛋白,18个全β类蛋白和18个混合类蛋白作为研究对象,直接分析蛋白质折叠速率与相应编码序列中同义密码子的使用之间的相关性。结果发现,对于全α类蛋白,5个密码子的使用与蛋白质的折叠速率显著线性相关;对于全β类蛋白,8个密码子的使用与蛋白质的折叠速率显著线性相关;对于混合类蛋白,4个密码子的使用与蛋白质的折叠速率显著线性相关。而且发现同一个密码子的使用对不同类蛋白质折叠速率的影响是不同的。如谷氨酸Glu,对于全β类和混合类蛋白质,虽然同义密码子GAG和GAA的使用与蛋白质折叠速率都显著相关,但是两个密码子的使用对两类蛋白质折叠速率影响的趋势均是截然相反的。同样,对于精氨酸Arg,同义密码子CGC的使用对全α类和混合类两类蛋白质折叠速率的影响趋势也是相反的。6.除了GC含量、回文GC含量和同义密码子的使用参量之外,我们又选取了描述遗传语言词汇组成的信息参数D1(一阶信息冗余)、描述遗传语言语法结构的信息参数D2(二阶信息冗余)及其衍生的信息参数X(X=D2/(D1+D2))作为刻画编码序列的特征参数,并基于一个较大的蛋白质数据集分析它们与蛋白质折叠速率之间的线性关系。结果表明,对于二态蛋白质,D2和X这一参量组与全α蛋白和全β蛋白的折叠速率均有极显著的相关性,尤其对于全α蛋白,相关系数达到0.84。而对于多态蛋白,蛋白质编码序列的GC含量这一参量对蛋白质折叠速率的影响较为突出,进一步分析表明对于这种GC含量的影响,其中一部分来自于密码子的第三位点,又一次证实了同义密码子的使用对蛋白质折叠速率的影响。7.统计分析和比较了艾滋病病毒(HIV-1)、丙型肝炎病毒、SARS病毒及其它几种冠状病毒的回文结构GC含量的特征和分布,发现了其中一些回文结构的特殊分布。综合考虑几种高致病病毒序列的一些特殊回文结构,如在GC含量,回文长度以及位置等方面特殊分布的回文结构,发现这些特殊回文结构往往分布在病毒序列中较为关键的位置。所以,它们一定不只是普通的序列,而应该是具有某种生物功能的重要元件。我们猜想这些特殊回文一定携带一些影响病毒蛋白质功能的重要信息。既然回文结构与蛋白质的功能有非常紧密地联系,而且它们在mRNA序列中有非常广泛的分布。那么,回文结构完全可以作为研究mRNA与蛋白质之间关系的一个很好的参量。
其他文献
结合沈阳工程学院图书馆近年来的网络采购实践,探讨了网络采购在图书馆工作中的应用,剖析了网络采购的优势与问题,特别是网络采购应注意的事项.
分析了500kV变压器操作冲击试验的现状,提出用直流励磁法代替传统的操作冲击励磁法。
在碱性条件下,以六水合氯化镍为基底,以尿素为沉淀剂,温度为180℃时,采用水热法制备了氢氧化镍中间体,将其进行焙烧得到氧化镍粉体。利用X射线衍射(XRD)和扫描电镜(SEM)对样品的
基因组序列k-mer出现的频次存在进化分离现象。基于这一现象,我们分析了酵母基因组核小体核心序列与核小体连接序列中k-mer (k≤8)使用频次的差异。分析了人类1号染色体基因
社员资格,是指主体成为农民专业合作社社员所应具备的条件和身份。法律对合作社社员资格的开放抑或限制的权衡,在法的价值层面是公平与效率的价值冲突,在私法层面是私法自治与国
近年来,医疗条件不断提升,再加上医患关系紧张,我国剖宫产率明显上升。剖宫产手术是产科比较常见的手术,是解决难产和产科合并症,挽救产妇和围生儿生命的有效手段[1],但剖宫
全基因组序列k-mer的使用是非随机的,不同种类的k-mer具有不同的生物学功能,发掘k-mer使用规律以及k-mer的生物学功能对于基因组结构进化和系统理解功能片段非常重要。上百个
近期,中共中央政治局会议提出了“六个稳”,其中,稳投资是主要内容之一,凸显投资在稳定短期需求和促进长期发展方面的关键作用。$$当前稳投资的必要性$$一是投资增速持续下行,最终
报纸
当前,揭示基因组序列k-mer频谱的内在规律逐步成为研究热点。物种基因组序列的k-mer频谱是确定的,不同物种之间其k-mer频谱的差异是有规律的。高等哺乳动物(k>6)呈多峰分布,
当今社会,打赢脱贫攻坚战是当前我党工作的重要任务,为确保到2020年实现全面建成小康社会的宏伟目标,也要求我们必须做好脱贫工作。要想让贫困地区“摘帽”,党和国家始终要做