论文部分内容阅读
本论文属于生物信息学的研究范畴。对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),最新资料说明这部分序列约占基因组的3%。仅占人类基因组3%的编码区的相关研究已经缔造了数十位诺贝尔奖获得者,97%非编码区蕴含的生物信息量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题。
在大多数真核生物的基因组中存在着大量的散置重复序列,Alu序列属于中等重复的短散置序列,约占人类基因组的5%~6%。最近研究表明Alu序列可能与调控网络有关,调控散置在基因组中的基因协同表达。我们知道,基因中的DNA序列是通过三联体编码方式决定蛋白质序列,那么Alu序列是否具有类似于基因中的三联体编码的编码性质呢?
本文我们首先尝试用准周期的方法在Alu序列中寻找可能的编码方式,并与外显子,内含子的分析结果进行对比,结果显示Alu序列可能具有8联体的编码方式。同时Alu序列8联体的编码性质也支持了原来人们曾经提出的Alu序列可能参与表达调控的观点。
为了进一步研究Alu序列的准周期模式,我们分别对这些序列左右臂的准周期进行了统计分析,结果发现所有序列的右臂显示出显著的准周期8,而左臂则有5或者8的准周期特点;同时我们也发现左臂中的准周期5有向准周期8进化的趋势。这些结果表明,在进化过程中,Alu序列有比较保守的准周期8,因而Alu序列可能具有一种或几种特定的功能。
对于Alu各家族和各家族左右臂,我们分别统计了它们在每个周期位置上各碱基出现的概率,没有发现特别的规律,这与编码区统计特性分析获得的经验即DNA中密码子的使用频率不是平均分布的比较吻合。然而我们发现Alu各个家族序列和左右臂有很相同的一点就是碱基G的出现频率最大,其次是碱基A、C,最少的是碱基T。