论文部分内容阅读
CGI(CpG Island,CpG岛)在基因的表达调控中扮演者重要的角色,在小鼠基因组中几乎所有的管家基因和40%的组织特异性基因的启动子区都存在CGI。在本文中我们探索了k-mer(k-polymers,k聚体)与CGI之间的相关性,并通过这种相关性建立了一个分类模型,最后将分类模型应用于小鼠全基因组中用于鉴别CGI序列。 k-mer是长度为k的核苷酸多聚体,k的选择对计算量有着重要的影响。为了选择一个合适的k值,我们在小鼠基因组中统计了不同长度k-mer的频次分布。我们发现,小鼠k-mer的分布开始在k大于6时呈现出三个峰,但当k大于11以后三峰分布现象开始逐步减弱。根据k-mer的分布图谱,我们认为k-mer的长度在8和9之间是比较合理的。之后我们将8/9-mer按照其中所含的某一二核苷数目的不同将其分为三个子集,分别是1XY、2XY、3XY。我们发现只有在CG二核苷分类下小鼠基因组8/9-mer频次分布所呈现的三个峰是可以被独立分开,基于此我们认为含有CG二核苷数目相同的8/9-mer在生物学功能上应该会有一定的相似性。 为了探求含有CG二核苷数目相同的k-mer的生物学功能,我们定义了一个参数Ktri,这一参数可以表征序列对某一k-mer子集的偏好性。通过这种方法我们发现,CGI序列在8/9-mer中更加的偏好2CG模体,即2CG模体是构成CGI序列的核心模体。 最后我们应用机器学习的方法,以不同子集计算的Ktri为序列的特征,建立了一个可以鉴别CGI的分类模型,并将模型应用与小鼠基因组中。我们在小鼠基因组中共鉴别出的CGI序列为52761条,是数据库中给出的16009条的3.3倍。在我们寻找到的片段中,包含了数据库中的15945条CGI序列,占数据库中总CGI的99.6%。