论文部分内容阅读
蛋白质折叠问题被列为“21世纪的生物物理学”的重要课题,是分子生物学中心法则尚未解决的一个重大生物学问题。其中重要任务之一便是确定蛋白质折叠速率的决定因素,从而理解蛋白质的折叠机理。目前,人们普遍认为决定蛋白质折叠速率的因素主要来自于构成蛋白质的氨基酸序列和各级结构以及环境和温度。我们认为,除此之外,决定蛋白质折叠速率的信息还来自于蛋白质编码序列,它们在调节蛋白质折叠过程中起到重要作用。本文将探讨编码序列对蛋白质折叠速率的影响。蛋白质编码序列不仅包含了编码蛋白的遗传语言,还包含了其它丰富的信息内容。这主要表现在密码子的“摆尾”现象,即密码子第三位点碱基使用的自由度问题。同义密码子使用的作用之一是调节编码序列的高级结构,而最普遍的高级结构单元是回文结构。已有研究表明一些特殊分布的回文结构具有非常重要的生物学功能,而且许多疾病与回文结构相关。所以对回文结构的构成进行全面深入的研究,是全面了解核酸序列信息功能的重要方面之一。另外,回文结构在一定程度上反映了mRNA的序列信息和结构信息。若编码序列对蛋白质折叠速率有影响的话,则应该在编码序列的回文结构和同义密码子使用中体现出来。基于这个思路,我们的主要研究内容如下:1.在蛋白质层面上探究氨基酸片段的平均极性与蛋白质折叠速率的关系。以四种病毒(SARS病毒、艾滋病病毒、丙型肝炎病毒和乙型肝炎病毒)的蛋白质序列以及大肠杆菌60个蛋白酶的所有α螺旋和β折叠片段为研究对象,计算了各片段的折叠速率和平均极性,分别在各物种的α螺旋和β折叠两类二级结构片段中分析了折叠速率和平均极性的相关性。得到结论:不论是病毒蛋白质还是大肠杆菌中的蛋白酶,其中两类氨基酸片段的平均极性与折叠速率都是极显著相关的:对于所有的α片段,二者呈线性正相关;而对于所有的β片段,二者成线性负相关。结果证实了在蛋白质折叠中,氨基酸的极性起着非常重要的作用。2.编码序列中回文GC含量和回文密度对氨基酸片段平均极性和折叠速率之间关系的影响。定义了蛋白编码序列片段的回文GC含量及回文密度两参量。基于以上四种病毒蛋白质序列的α螺旋片段及β折叠片段的折叠速率与其平均极性之间的相关性,分析了回文GC含量及回文密度对这一相关性的影响。发现这两个参量确实对氨基酸片段折叠速率和平均极性之间的关系有影响。统计分析表明这两个来自编码序列的参量与氨基酸片段的平均极性无显著关系。这间接说明相应编码序列片段的回文GC含量及回文密度影响了蛋白质的折叠速度,且蛋白质折叠速率与回文两参量之间均呈正相关。进一步分析表明影响的根源来自于回文结构的复杂性或可变性和同义密码子的使用偏好,而不是来自于从密码子到氨基酸的翻译信息。这说明蛋白质编码序列确实携带有影响肽链折叠速率乃至蛋白质结构的信息。3.为了从多个角度印证mRNA结构和序列对蛋白质折叠速率的影响,先选择编码序列的序列参数—GC含量来做初步分析。基于Gromiha给出的13个全β类蛋白质,得到相应编码序列的GC含量并将它加入到Gromiha基于蛋白质序列4个参数的预测折叠速率回归方程中来检验GC含量在蛋白质折叠过程中的作用。与Gromiha的结果比较,预测值和实验值之间的相关系数提高了2%,即从Gromiha的0.96增加到0.98,总体方差从0.50降到0.27,卡方检验值从3.53(p=0.01)降到3.35(p=0.008)。结果表明GC含量对预测蛋白质折叠速率是有效的,意味着蛋白质编码序列的GC含量确实对蛋白质折叠速率有影响。进一步分析也表明这种影响主要来自于密码子的第三位点以及它与第二位点的关联,而不是来自于从密码子到氨基酸的翻译信息。4.虽然加入编码序列的GC含量后预测蛋白质折叠速率的结果有所改善,但回归方程的Jackknife检验(GC含量参数项的p=0.087)结果表明通常的GC含量并未完全涵盖编码序列中影响蛋白质折叠速率的主要信息。我们分析,出现这样结果是由于编码序列的GC含量不能反映编码序列的结构信息。于是,我们定义了一个既能涵盖序列又能包含序列结构的一个参数,称为回文GC含量。用编码序列中的回文GC含量代替GC含量做同样的分析。与Gromiha的结果比较,蛋白质折叠速率的预测值与实验值之间的相关系数提高了3%,即从Gromiha的0.96增加到0.99,总体方差从0.50降到0.24,卡方检验值从3.53(p=0.01)降到2.86(p=0.004),而且我们新的结果通过了Jackknife检验。这表明蛋白质编码序列中回文GC含量对蛋白质折叠速率有更大的影响。意味着蛋白质编码序列的结构和序列组成是影响蛋白质折叠速率的主要因素。进一步分析也表明这种影响一部分来自于回文结构的复杂性和可变性,另一部分来自于同义密码子的使用或者说是密码子第三位碱基的使用。5.选择已知折叠速率的18个全α类蛋白,18个全β类蛋白和18个混合类蛋白作为研究对象,直接分析蛋白质折叠速率与相应编码序列中同义密码子的使用之间的相关性。结果发现,对于全α类蛋白,5个密码子的使用与蛋白质的折叠速率显著线性相关;对于全β类蛋白,8个密码子的使用与蛋白质的折叠速率显著线性相关;对于混合类蛋白,4个密码子的使用与蛋白质的折叠速率显著线性相关。而且发现同一个密码子的使用对不同类蛋白质折叠速率的影响是不同的。如谷氨酸Glu,对于全β类和混合类蛋白质,虽然同义密码子GAG和GAA的使用与蛋白质折叠速率都显著相关,但是两个密码子的使用对两类蛋白质折叠速率影响的趋势均是截然相反的。同样,对于精氨酸Arg,同义密码子CGC的使用对全α类和混合类两类蛋白质折叠速率的影响趋势也是相反的。6.除了GC含量、回文GC含量和同义密码子的使用参量之外,我们又选取了描述遗传语言词汇组成的信息参数D1(一阶信息冗余)、描述遗传语言语法结构的信息参数D2(二阶信息冗余)及其衍生的信息参数X(X=D2/(D1+D2))作为刻画编码序列的特征参数,并基于一个较大的蛋白质数据集分析它们与蛋白质折叠速率之间的线性关系。结果表明,对于二态蛋白质,D2和X这一参量组与全α蛋白和全β蛋白的折叠速率均有极显著的相关性,尤其对于全α蛋白,相关系数达到0.84。而对于多态蛋白,蛋白质编码序列的GC含量这一参量对蛋白质折叠速率的影响较为突出,进一步分析表明对于这种GC含量的影响,其中一部分来自于密码子的第三位点,又一次证实了同义密码子的使用对蛋白质折叠速率的影响。7.统计分析和比较了艾滋病病毒(HIV-1)、丙型肝炎病毒、SARS病毒及其它几种冠状病毒的回文结构GC含量的特征和分布,发现了其中一些回文结构的特殊分布。综合考虑几种高致病病毒序列的一些特殊回文结构,如在GC含量,回文长度以及位置等方面特殊分布的回文结构,发现这些特殊回文结构往往分布在病毒序列中较为关键的位置。所以,它们一定不只是普通的序列,而应该是具有某种生物功能的重要元件。我们猜想这些特殊回文一定携带一些影响病毒蛋白质功能的重要信息。既然回文结构与蛋白质的功能有非常紧密地联系,而且它们在mRNA序列中有非常广泛的分布。那么,回文结构完全可以作为研究mRNA与蛋白质之间关系的一个很好的参量。