小鼠基因组中CGI序列对k-mer的使用偏好性与CGI的鉴别

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:FuSoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
CGI(CpG Island,CpG岛)在基因的表达调控中扮演者重要的角色,在小鼠基因组中几乎所有的管家基因和40%的组织特异性基因的启动子区都存在CGI。在本文中我们探索了k-mer(k-polymers,k聚体)与CGI之间的相关性,并通过这种相关性建立了一个分类模型,最后将分类模型应用于小鼠全基因组中用于鉴别CGI序列。  k-mer是长度为k的核苷酸多聚体,k的选择对计算量有着重要的影响。为了选择一个合适的k值,我们在小鼠基因组中统计了不同长度k-mer的频次分布。我们发现,小鼠k-mer的分布开始在k大于6时呈现出三个峰,但当k大于11以后三峰分布现象开始逐步减弱。根据k-mer的分布图谱,我们认为k-mer的长度在8和9之间是比较合理的。之后我们将8/9-mer按照其中所含的某一二核苷数目的不同将其分为三个子集,分别是1XY、2XY、3XY。我们发现只有在CG二核苷分类下小鼠基因组8/9-mer频次分布所呈现的三个峰是可以被独立分开,基于此我们认为含有CG二核苷数目相同的8/9-mer在生物学功能上应该会有一定的相似性。  为了探求含有CG二核苷数目相同的k-mer的生物学功能,我们定义了一个参数Ktri,这一参数可以表征序列对某一k-mer子集的偏好性。通过这种方法我们发现,CGI序列在8/9-mer中更加的偏好2CG模体,即2CG模体是构成CGI序列的核心模体。  最后我们应用机器学习的方法,以不同子集计算的Ktri为序列的特征,建立了一个可以鉴别CGI的分类模型,并将模型应用与小鼠基因组中。我们在小鼠基因组中共鉴别出的CGI序列为52761条,是数据库中给出的16009条的3.3倍。在我们寻找到的片段中,包含了数据库中的15945条CGI序列,占数据库中总CGI的99.6%。
其他文献
由“服务业挚友”集团发起的《服务贸易协定》(TISA)谈判已历时四年有余,在制定“新的和强化的纪律”和做出“高雄心水平”的市场准入承诺方面取得了积极进展。对于协定以何种法
摘要:微信软件以强大的功能为广大教师和家长所青睐。微信群的利用在小学班主任工作中的地位举足轻重,为家校“零距离”沟通带来不少方便。论文以小学为切入点,对困扰班主任工作的一些问题进行思考;对微信群的优势进行分析;对班主任中作中微信群的应用进行说明。  关键词:微信群;小学;班主任工作  中图分类号:G635.1 文献标识码:A 文章编号:1992-7711(2017)10-0081  笔者所在的学校
引子rn川西高原由西自东倾斜,此起彼伏的群山裹挟着数条江河纵横奔腾,这片莽野之地处处皆大美.沿川藏线一路向西,川滇藏三省交汇处的巴塘便是进藏的要塞咽喉.rn这块山山相夹
期刊
本文以藏族作家洼西彭错《1901年的三个冬日》《雪崩》和《蝴蝶的舞蹈》为例,从命运的不可知性、命运的时间意象、与命运的积极抗争、淡化绝对意义的善恶对立四个方面探讨洼
慢性髓细胞性白血病(Chromc myelogenous leukemia,CML)最大的细胞遗传学特点是存在特异性的Ph染色体,即9号染色体上的原癌基因c-abl和22号染色体的断点集中区(bcr)易位形成分
半年前,一位朋友跟我说,我某篇两三千字的文章写得不错,可惜太短,论证也不周密,建议我改用论文的形式再写一遍,把文章中的好意思完整表达出来.前段时间稍有空闲,我就把那篇小
期刊
一rn顾铮在窗下书案前铺展宣纸.这是他出差至宣城泾县,走访数十家店寻得的.然而,在悬空于28楼的巨大画室踌躇良久,顾铮还是像前些回一样,只觉胸中意绪横枝丛生,百泉乱涌,却无
期刊
期刊
每年藏历四月,在拉萨,乃至西藏的很多地方,都有一场持续一个月的节日,这个节日是属于佛教徒的萨嘎达瓦节.说它是仪式也好,生活也罢,这个为期一个月的萨嘎达瓦节,自然而然中融
期刊
学位