论文部分内容阅读
每个基因组序列k-mer频谱是确定的,不同基因组序列的k-mer频谱各不相同.研究k-mer频谱的内在使用规律可以帮助我们更好的理解基因组序列结构、各类k-mer在功能序列上的分布特征以及所反映的生物学功能.前期工作研究了不同物种基因组序列8-mer频谱的分布规律.除了极个别物种外,发现8-mer频谱存在独立选择定律,即三种CG类(0CG、1CG和2CG)8-mers是各自独立进化的,任何DNA序列均是由这三种CG类模体组合而成的.基于独立选择定律,本文以人类、斑马鱼、拟南芥、水稻、蚊子和蜜蜂这六个物种基因的转录起始位点、转录终止位点、翻译起始位点、翻译终止位点、内含子与外显子结合处以及外显子与内含子结合处这六个功能位点区域的序列为目标序列,分析各个功能位点区域上三种CG类8-mer频谱的分布和8-mer相对频率的位置分布,以及三种CG类8-mer中x-mer(x=3,4)的使用差异,探讨CG类模体在基因不同功能位点区域上的分布规律与物种进化之间的关系. 首先,给出了三种CG类8-mer在六个功能位点区域上的8-mer频谱,发现人类、斑马鱼、拟南芥和水稻的三种CG类8-mer频谱仍然遵守独立选择定律,蚊子和蜜蜂三种CG类8-mer频谱不遵守独立选择定律.其次,计算了六个功能位点区域上三种CG类8-mer频谱分布的最概然频次与随机中心频次的相对距离.发现人类、斑马鱼、拟南芥和水稻中的三种CG类8-mer频谱的相对位置出现进化分离现象(RD0>RD1>RD2),且分离程度与物种进化呈正相关关系.也就是说,随着物种进化水平的提高,三种CG类8-mer频谱分布之间的距离在逐渐变大.蚊子的三种CG类8-mer频谱位置的进化分离与前四个物种正好相反(RD0<RD1<RD2),蜜蜂的三种CG类8-mer频谱位置没有明显的分离现象.最后,计算了六个功能位点区域上三种CG类8-mer频谱分布的相对标准差RS.发现人类、斑马鱼、拟南芥和蜜蜂中的三种CG类8-mer频谱的相对标准差有明显的规律,即RS0<RS1<RS2,与全基因组一致.也就是说,1CG和2CG类8-mer使用频率的保守性明显高于0CG类8-mer.水稻和蚊子0CG和1CG模体的保守性关系仍有RS0<RS1.但水稻在六个功能位点区域上2CG模体的保守性低于1CG模体.蚊子的三种CG类模体的保守性没有明显差异. 探讨了三种CG类8-mer在基因六个不同功能位点区域上的分布.结果显示,三种CG类8-mer的分布在基因六个不同功能位点区域上均不相同,且呈现各自的分布特点.脊椎动物的分布相近,植物间的分布相近,蚊子和蜜蜂的分布更具多样性.转录起始位点的分布和翻译起始位点的分布有一定的相似性,转录终止位点的分布与翻译终止位点的分布相近,两个起始位点和两个终止位点的分布具有对称性质.外显子与内含子结合处和内含子与外显子结合处的分布是对称的.人类、斑马鱼、拟南芥和水稻三种CG类8-mer在基因两个起始和两个终止位点区域的分布随着物种的进化呈现出规律的变化.但六个物种在外显子和内含子结合区域呈现出相似的分布形式.蚊子和蜜蜂在两个起始和两个终止位点区域的分布与前四个物种的分布明显不同. 采用三种CG类8-mer中x-mer(x=3,4)的相对使用频率来表征CG类8-mer的信息得到新对称相对熵,计算了新对称相对熵在六个物种基因不同功能位点区域上的分布.结果显示,人类、斑马鱼、拟南芥和水稻的2CG类新对称相对熵的偏离程度最大,1CG次之,0CG的几乎没有偏离.表明1CG和2CG类8-mer信息是组成功能位点区域的主要信号模体,0CG模体构成了区域的背景.蚊子和蜜蜂较特殊,在六个功能位点区域上的分布都表现出了明显偏好性,且分布形状与前四个物种都不相同.蜜蜂的偏离程度最大,蚊子的偏离程度最小. 总之,人类、斑马鱼、拟南芥和水稻基因各个位点区域的序列构成遵守独立选择定律,六个功能位点上三种CG类8-mer分布各不相同,且分布形式与物种进化紧密相关.显示了含CG类模体是组成各类功能序列的核心模体,它们在功能位点区域的含量和分布差异决定了不同区域的功能差异.蜜蜂和蚊子不遵守独立选择规律,三种CG类8-mer在功能位点区域上有自己的特殊分布规律.独立选择定律为我们研究序列的结构提供了全新的思路,对于探讨序列与功能的关系具有重要的理论意义.