论文部分内容阅读
已知在某些高等真核生物的基因间序列中,8-mers的频数呈现出多峰分布,而低等真核生物却是单峰分布。对8个物种全基因组的基因间序列,我们分析了8-mer分布以及在不同峰中的8-mers模体特征。发现人类、猪、马和老鼠呈现3峰分布。峰1和峰2分布中的模体频数远离随机分布,而峰3分布中的模体频数处在随机分布区域。酵母、线虫、蚊子和雄蜂是单峰分布。根据8-mers中包含CG的个数不同,我们将其分为CG0、CG1和CG2(包含2个及2个以上CG)三类。发现在这四种高等真核生物中,3个峰分布的8-mers能明显的区分开,CG2模体全部位于峰1分布中;CG1模体全部位于峰2分布中;CG0模体全部位于峰3分布中。但是,当按照其余15种二核苷模体将8-mers模体进行分类后,3峰分布并不能被区分。四种低等高等生物的8-mer分布同样能够按照CG0、CG1和CG2加以严格区分。我们认为单峰和多峰分布仅仅是由于基因间序列的进化引起的,包含CG的8-mers模体数目进化相对保守,而不包含CG的8-mers模体数目在高等真核生物进化中增加显著,从而造成了三类模体分布的分离。可见包含CG的8-mers肯定具有生物学功能。我们小组认为包含CG的8-mers与核小体定位有密切联系。我们认为包含CG的8-mers还应当参与基冈间序列中非编码基因转录过程,因为CG二核苷与CpG岛密切相关。 在由CG0、CG1和CG2定义的三类模体中,计算了16种二核苷酸出现的相对频数(RF)值。从低等生物到高等生物,RF值减小幅度最大的是CG二核苷,其次还有TT、AA、AT、TA。RF值增大的有GC、CC、GG、TC、CT、CA、TG、AG、GA。就CG和GC二核苷而言,RF值变化趋向和变化幅度均不同,由此我们认为包含CG的DNA序列可是非编码基因转录和核小体结合的重要因素。