论文部分内容阅读
结合人类基因间序列8-mer相对模体数随频次分布的三峰现象,讨论了酵母基因组8-mer分布形成单峰的原因.根据XY二核苷分类,把总体8-mer模体分成三个子集,讨论了8-mer模体使用的进化分离,分析了三个8-mer子集中m-mer(m=3,4)的使用差异,进而推测了含1CG和2CG8-mer的生物学功能.整个研究分为四部分,具体内容如下所示: 一、前期的研究发现,人类基因间序列的k-mer(k>6)呈三峰分布,当k=8时分布更加清晰稳定.所以选取了人类1号染色体的基因间序列,得到8-mer相对模体数随频次的三峰分布.基于8-mer中包含XY二核苷的多少对8-mer模体进行分类,发现按CG分类的8-mer集合中,2CG、1CG和0CG的8-mer模体形成独立的单峰分布,且2CG、1CG和0CG的分布分别与总体8-mer分布的峰1、峰2和峰3分布严格对应,0CG的分布中心与随机序列的分布中心一致,1CG和2CG分布的频次远远小于随机分布或远离随机中心.表明含0CG的8-mer使用是随机进化的结果,含1CG和2CG的8-mer使用是定向进化的结果.而且1CG分布的最可几相对模体数远远大于0CG分布.结合这些8-mer序列的特征和实验对比,我们提出了三个理论猜想:(1)2CG模体是构成CpG岛序列的核心模体,(2)1CG模体是与组蛋白相互作用的功能片段,我们称之为核小体结合模体,(3)三类模体的使用分离反映了生物基因组之间的进化关系,是基因组内各类序列差异的根本原因.本文将基于人类基因组8-mer使用规律,研究酵母基因组中8-mer使用的进化分离现象. 二、分析了酵母全基因组序列的8-mer相对模体数随频次的分布.发现总体8-mer分布是单峰分布,CG含量随着使用频次的增高而降低.对8-mer集合进行XY分类并结合人类基因间序列三峰分布特征发现,16种二核苷分类中只有CG分类后1CG分布的最可几相对模体数高于0CG分布,与人类分布一致,而造成8-mer分布呈现单峰现象的原因是由于0CG、1CG和2CG分布中心距离较近而导致的.从生物进化角度来看,在低等真核生物中从酵母开始已经显示了CG模体的进化分离现象,我们认为此分离现象在真核生物中具有普适性.计算了酵母基因组序列按XY分类后0XY、1XY和2XY子集中m-mer(m=3,4)的相对频率,与总体8-mer中m-mer的相对频率进行比较.发现在XY分类中,2XY子集的m-mer使用分离最大,1XY子集次之,0XY子集的m-mer使用分离最小;在1XY和2XY子集中,CG和GC子集的m-mer使用分离最大,表明这类模体是定向进化的.在0XY子集中,CG/GC/CC/GG子集的m-mer使用分离最小,即表明这类模体是随机进化的. 三、运用新对称相对熵来定量描述m-mer使用的分离距离.与总体8-mer中m-mer使用相比,在0XY子集中,0CG子集的m-mer新对称相对熵最小,表明包含0CG的8-mer与总体8-mer的偏离最小.在1XY子集中,1CG子集的m-mer新对称相对熵最大,表明包含1CG的8-mer与总体8-mer的偏离最大.在2XY子集中,2CG子集的m-mer新对称相对熵最大,表明包含2CG的8-mer与总体8-mer的偏离最大. 四、运用了角度差和距离差计算了子集与总体8-mer中m-mer使用分离的距离.其结果与新对称相对熵的结果总体一致,但在一些XY子集中存在差别.仔细分析三个参数的定义发现,在0XY子集中,造成0CG子集进化分离的主要因素是m-mer的使用偏好.在1XY子集中,造成1CG子集进化分离的不全是m-mer的使用偏好,相对频率小的m-mer使用偏离也是非常重要的.在2XY子集中,造成2CG子集进化分离的主要因素是m-mer的使用偏离.这些结论对于我们预测核小体定位和CpG岛序列具有重要价值.