论文部分内容阅读
真核生物mRNA非翻译区(UTR)阅读框架在基因翻译水平上具有重要的调控作用。本文统计了哺乳动物12991条5UTR序列所含的上游开放阅读框架(uORF)和15319条3UTR序列所含的下游开放阅读框架(dORF)的各种序列特性,讨论了uORF作为可能的基因调控元件,不同于dORF的一些序列特征。
本研究在所分析的5UTR序列中约19%的序列在阅读框1下含有AUG,约22%和24%的序列分别在阅读框2和阅读框3下含有AUG。在这些AUG当中,在阅读框1下,86%的AUG是以uORF的形式出现的,在阅读框2和阅读框3下分别是71%和70%。而在所分析的3UTR序列当中,无论是在哪个阅读框下,约71%含有AUG,其中约85%的AUG是以dORF的形式出现的;分析uORF序列和dORF序列以及与它们相应的uIC序列(上游阅读框间序列)和dIC序列(下游阅读框间序列)长度,发现虽然3UTR序列远远长于5UTR序列,但是它们所包含的dORF和uORF长度几乎没有差距,只是平均来说每一条3UTR序列所包含的dORF数量明显多于每一条5UTR序列所包含的uORF数量,而且dIC比uIC长很多;uIC序列长度和其相应的uORF序列长度之间不存在显著的相关性,但dIC序列长度和其相应的dORF序列长度之间具有极显著的正相关关系。如果将阅读框间序列(intersictronic sequence,IC序列)分为比其相应的uORF(dORF)长和短的两种情况,无论是uORF与uIC之间的相关性还是dORF与dIC之间的相关性都达到极显著水平。第二类IC序列(UTR区相邻的两个阅读框之间的序列)的平均长度比其它两类IC序列(UTR区最后一个阅读框之后的序列)的平均长度小;uIC序列和dIC序列单碱基含量及终止密码子含量都存在很大的区别;uORF和dORF起始密码子两端序列与kozak序列有一定的差距;比较uORF序列与dORF序列密码子使用偏好的CAI值发现,uORF序列的CAI值显著高于dORF序列的CAI值。