基于加权Markov模型的DNA序列结构差异性分析

来源 :云南大学 | 被引量 : 0次 | 上传用户:lsh123456lsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核基因转录调控的过程中转录因子是一个关键因素,它通过与结合位点的相互作用,调节基因的转录,控制基因的表达。转录因子的结合位点(亦称调控元件)具有特异性,并且非随机地分布在基因的启动子序列上,准确识别出这些元件有助于对基因转录调控规律的认识。研究表明,酵母中转录频率高的基因其调控序列与转录频率低的基因不同,这提示基因转录频率与启动子序列结构有关。为了进一步证实这种相关性,本文拟对酵母基因转录频率与启动子结构的关联性进行统计分析。   首先,本文分别基于出现频率法、Markov模型以及加权Markov模型计算出所有可能的6-mer(6核苷酸)在不同转录频率的酵母基因启动子序列中的隶属度,然后定义最大最小贴近度和模糊相对熵来度量这些基因启动子序列结构的差异情况,并对各阶加权Markov模型下的最大最小贴近度、模糊相对熵和转录频率均值分别进行相关分析与回归分析,以此更加详细地了解基因转录频率与启动子序列结构差异的关联性。结果表明,基因转录频率与启动子序列结构存在一定的关联性,转录频率相差较大的基因,其启动子序列结构有明显差异;并且与Markov模型和出现频率法比较,加权Markov模型能更有效地反映基因启动子序列的结构特征,尤其是高阶(3阶和4阶)加权Markov模型。最后,为了验证用分组方法对不同转录频率基因启动子序列结构的差异性进行分析是合理的,我们从高转录和低转录基因启动子中各抽取25条基因并将它们混合起来,然后在4阶加权Markov模型下分别计算每两个基因的最大最小贴近度并将它转化为距离,利用最长距离法对这50条基因启动子进行聚类分析。聚类分析结果说明以转录频率的大小为依据进行分组,并根据这种分组方式研究启动子序列结构的差异情况是符合生物学意义的。
其他文献
近年来,互联网使用者日益增多,各大网站的注册使用者和网站中的内容条目也在快速增长,这一现象加剧了用户信息选择困难的问题。推荐模型应运而生,其使用用户的历史记录、物品的属
第21届中国焊接博览会即将隆重开幕。这个在中国焊接界极具威望和号召力的展览盛会已经在国内成功地举办了20届。这20多年是中国经济稳步增长的20多年;也是中国焊接产业发育
流行病学的作用已逐渐受到医学家和统计学家的广泛关注,而且有关流行病风险指标的研究,越来越受到重视,目前在文献中出现的流行病指标有很多,比如风险差、风险比等等,其中风险差意
本文主要研究的是被控对象为广义系统模型的网络控制系统.随着计算机技术、电子和通信技术的快速发展,网络应用已经在全球范围内日益普及.在控制领域,网络也已引领控制系统的结
我们知道,关于函数的变分问题几乎都以有下界为前提条件,但是骆道忠研究了一类无下界函数的变分问题。本文是在骆道忠的基础上继续对这类问题进行讨论。本文主要研究了定义在Ba
合作学习以目标设计为先导,以师生、生生之间的小组活动为基本形式。学生在小组或团队中,为了完成共同任务而通力协作,这样可以大面积地提高学生的学习成绩,改善班级的社会心
如今,由于经济、金融、医疗卫生等各研究领域的数据的复杂程度以及数据量都在不断提升,简单的均值回归模型或者参数模型已经不能很好的满足现代数据分析的要求。我们需要能够全
这篇论文分别在距离空间的完备子集,Banach空间以及Asplund空间中,在f是下半连续函数,Lipshitz函数或者是向量值函数的情况下。给出了对应不等式系统误差界的一些充分条件,最后我
初中信息技术课程教学评价是整个信息技术课程教育体系中的重要组成部分,是实现课程目标、发挥教学导向和进行质量监控的有效手段和方法.通过评价可以帮助学生正确地认识自己
就我们当今的课堂教学来看,我们一定要遵循小学生的身心发展规律,努力给他们创造优良的学习气氛、创设贴近现实生活、形象具体的教学情境,这样才能促进学生全心全意地投入到