论文部分内容阅读
1987年,美国学者Kozak通过对699条脊椎动物mRNA 5’非编码区4种碱基分布概率的统计学研究分析发现,在脊椎动物mRNA翻译起始位点上游一段序列相对保守,在ATG旁侧的保守序列是“(GCC)GCCA/GCCATGG”,即“Kozak规则(Kozak Rule)”。该保守序列特征在新基因预测和生物工程产品的开发与研究中起到了重要的指导作用。16年来,生命科学得到了飞速的发展,人类已知基因的数目在急剧增加,在各类基因库中亦收录了不计其数的不同物种或不同种属的基因序列。然而,通过对大样本数据的统计来分析、验证“Kozak规则”目前尚未见报道。 本文拟利用RefSeq数据库(http://www.ncbi.nlm.nih.gov/RefSeq/)提供的智人(Homo Sapiens)mRNA序列,一方面对翻译起始位点旁侧序列中碱基分布特性进行概率学分析,以期在大样本量的情况下重新分析mRNA翻译起始位点旁侧碱基的特征;另一方面,分析翻译终止密码子串联情况,以期找出密码子串联使用的整体规律。 通过自编的系列Perl程序,从智人RefSeq数据库中分别抽取mRNA序列起始密码子、终止密码子上、下游一定数目碱基进行分析,得出以下主要结论: 1、在大量智人mRNA序列统计分析的基础上,验证了“Kozak规则”,并进行了有效扩展,将-9,-8,-6,-4,-3,-2,-1、+4,+5,+6均纳入新的规则之中。 2、终止密码子为TGA的序列最多,几乎是统计总数的一半;不同终止密码子,其旁侧序列分布规律不完全一致。 3、同相位终止密码子串联现象中,终止密码子的个数分别从2到4,其中94.83%为两个终止密码子串联使用。在两个串联终止密码子现象中,数量最多的是“TGATGA”;异相位终止密码子串联的序列有552条序列。总共有293条序列存在同相位起始密码子串联现象,309条序列存在异相位起始密码子串联现象,大多数也为两个串联使用。此外有35条序列在CDS字段标注的翻译起始位点前存在起始密码子“ATG”,我们分析可能是RefSeq数据库中对其标注有误,其正确性有待进一步考证和研究。 分析认为,同相位终止密码子串联的序列所翻译的蛋白质可能在生命活动中中文摘要起较关键的调控作用,第一个终止密码子出现误读或由于碱基突变而没有终止翻译后,后续串联的终止密码子可再次起到终止翻译作用。关于异相位终止密码串联,可能是在mRNA的编码区中有碱基插入或缺失时,正确终止蛋白质的翻译。 本文主要做了部分数据分析工作,进一步的功能分析和生物学验证需要补充完善。同其它模式生物有关规律的比较也是下一步要研究的重要内容。国家高技术研究发展专项经费资助课题(2002AA234021)