论文部分内容阅读
真核生物基因的表达是生物学中一个复杂的过程,受到来自于包括经典遗传学和表观遗传学多种因素的共同调控作用。表观遗传学在生物体的生长、发育以及疾病过程中所发挥的作用越来越多的被了解,并得到了人们更多的关注。高通量测序技术使生物组学相关的研究进入生物大数据时代。那么,对表观遗传学大数据的分析和研究,离不开生物信息学的方法。本论文选用人类胚胎干细胞的表观遗传修饰以及表达量的高通量测序数据,进行两者之间相关性的分析。构建了组蛋白修饰与基因表达之间的相互作用网络;对高、低表达基因不同功能区内组蛋白修饰谱进行详细地比较分析;研究了CG含量对于组蛋白修饰谱的影响;以组蛋白修饰、DNA甲基化等表观修饰信息和序列信息为输入参数,结合支持向量机方法对基因进行高、低表达的分类预测。论文主要的研究内容如下:1.研究了16种组蛋白修饰和基因表达之间的定量关系。结果表明,组蛋白修饰大部分促进基因的表达,少量抑制基因的表达。并基于偏相关系数的计算,构建了两者之间的相互作用网络。该网络存在11条相关性较强的边,16种组蛋白修饰中,有7种是对基因表达起直接调控作用,剩余修饰则是通过和这7种修饰发生相互作用来间接地影响基因的表达。2.转录起始位点侧翼区域、基因启动子、5’UTR、外显子、内含子和3’UTR是染色体上调控基因表达的重要区域。因此,分别对这些区域内组蛋白修饰在高、低表达两类基因中的分布类型进行了研究。结果表明,在转录起始位点侧翼区域内组蛋白修饰共有四种分布类型,不同的组蛋白修饰在两类基因中的分布存在明显的差异;组蛋白修饰在高表达基因中主要定位于启动子区域,在低表达基因中则主要定位于内含子区域。而且组蛋白修饰在高表达基因的启动子区域与低表达基因的外显子区域内的相关性差异较大。五个功能区域内组蛋白修饰的分布箱线图对比结果表明,染色体结构较为稳定的外显子区域,组蛋白修饰值的变化范围较小。3.组蛋白修饰密码即组蛋白修饰之间相互作用的研究是另外一种了解组蛋白修饰调控基因表达机制的重要方法。因此,高、低表达基因转录起始位点侧翼区域内的组蛋白修饰密码分别被研究。结果共得到5个组蛋白修饰功能簇,并且两类基因的组蛋白修饰簇类型不同。对同种组蛋白修饰在染色体上不同位置间的相关性也进行了分析。结果表明,组蛋白修饰在染色体上分布峰区域内的相关性比其他区域内的相关性高。因此,染色体上同种组蛋白修饰相关性较高的区域可以被识别为该修饰的峰区域。4.研究了胚胎干细胞自我更新密切相关的11个转录因子基因上的组蛋白修饰的类型特异性和位置偏好性。结果表明,不同的基因上所发生的主要的组蛋白修饰类型不同,并且该组蛋白修饰所偏好定位的功能区域也不同。其中,较为重要的两种组蛋白修饰是H3K4me2和H3K4me3,且主要偏好基因的启动子区域。5.CG含量对组蛋白修饰分布也有一定的影响。首先,对启动子进行了不同CG含量的划分,并统计分析了高、低CG含量两类启动子中组蛋白修饰分布的差异。结果表明绝大部分组蛋白修饰都是在高CG启动子有更多的分布。同样,对两类启动子的组蛋白修饰密码进行了分析。结果表明,两类启动子中各有两个不同的组蛋白修饰簇,并且在两类启动子中存在一个包含7种组蛋白修饰的保守簇。通过对胚胎干细胞中编码自我更新特异的关键转录因子的基因启动子CG含量的划分以及组蛋白修饰的分布分析发现,这些基因的启动子大部分都属于高CG含量启动子。组蛋白修饰H3K4me2、H3K4me3和H3K36me3是这些基因启动子区域比较重要的三种修饰类型。6.以组蛋白修饰、DNA甲基化、染色体可及性、转录因子以及DNA序列信息为输入参数,结合支持向量机算法对基因的高、低表达进行分类预测。通过将所有特征依次添加来构成不同的组合模型,选用10交叉检验和独立检验评价模型的预测能力。结果表明,随着输入信息的增加,模型的预测能力都有不同程度的提升,预测能力最好的模型是所有特征的组合模型。最好模型的预测精度和马修相关系数可达95.96%和0.92(10交叉检验)、95.58%和0.92(独立检验)。这说明,结合表观修饰信息以及DNA序列信息所构建的模型能够很好地将基因的高、低表达进行分类。