论文部分内容阅读
真核基因转录调控的过程中转录因子是一个关键因素,它通过与结合位点的相互作用,调节基因的转录,控制基因的表达。转录因子的结合位点(亦称调控元件)具有特异性,并且非随机地分布在基因的启动子序列上,准确识别出这些元件有助于对基因转录调控规律的认识。研究表明,酵母中转录频率高的基因其调控序列与转录频率低的基因不同,这提示基因转录频率与启动子序列结构有关。为了进一步证实这种相关性,本文拟对酵母基因转录频率与启动子结构的关联性进行统计分析。
首先,本文分别基于出现频率法、Markov模型以及加权Markov模型计算出所有可能的6-mer(6核苷酸)在不同转录频率的酵母基因启动子序列中的隶属度,然后定义最大最小贴近度和模糊相对熵来度量这些基因启动子序列结构的差异情况,并对各阶加权Markov模型下的最大最小贴近度、模糊相对熵和转录频率均值分别进行相关分析与回归分析,以此更加详细地了解基因转录频率与启动子序列结构差异的关联性。结果表明,基因转录频率与启动子序列结构存在一定的关联性,转录频率相差较大的基因,其启动子序列结构有明显差异;并且与Markov模型和出现频率法比较,加权Markov模型能更有效地反映基因启动子序列的结构特征,尤其是高阶(3阶和4阶)加权Markov模型。最后,为了验证用分组方法对不同转录频率基因启动子序列结构的差异性进行分析是合理的,我们从高转录和低转录基因启动子中各抽取25条基因并将它们混合起来,然后在4阶加权Markov模型下分别计算每两个基因的最大最小贴近度并将它转化为距离,利用最长距离法对这50条基因启动子进行聚类分析。聚类分析结果说明以转录频率的大小为依据进行分组,并根据这种分组方式研究启动子序列结构的差异情况是符合生物学意义的。