论文部分内容阅读
随着2003年人类基因组计划的完成,我们获得了人类基因组序列这本天书,但依然有许多问题没有解决。一个重要的科学问题困扰着大家:机体中复杂的调控网络是如何编码在一维的基因组上的?识别基因组上所有的功能元件是理解转录调控背后的分子机制的必要前提,因而解决这个问题的关键是精确识别与注释人类基因组上的重要功能元件。然而传统的实验手段如识别特殊的转录因子结合位置(ChIP,染色质免疫沉淀)在大量功能元件的识别与注释上有诸多限制,如仅适用于与已知的反式作用因子、依赖于分离相应转录因子的高质量ChIP级的抗体、价格昂贵等。近几年国际上开展的大型科学计划,包括ENCODE计划、modENCODE计划、表观路线图计划等,提供了近700T功能元件识别与注释相关的各组学公共数据;加上新一代测序的蓬勃发展,结合生物信息学分析技术的进步,为全面解析人类基因组中的功能元件提供了可能。基于这些大数据资源,作者展开了人类基因组功能元件的识别和注释研究。首先,研究从单个有代表性的功能元件入手。染色质上的隔离子是调控基因表达水平的DNA功能元件,他有两种方式来行使功能:一种是通过维持异染色质边界来阻止基因沉默,另一种是阻止增强子和启动子的作用关系来阻止基因转录的激活。CCCTC结合因子(CTCF)是一个广泛表达的11-锌指DNA结合蛋白,是脊椎动物中唯一的一个与隔离子相关的蛋白。虽然CTCF与众多调控功能相关,但他只在人类基因组少量细胞系中被研究,因此,并不确定所识别的细胞特异性差异的CTCF结合位点是否在功能上有显著差异。我们识别了ENCODE计划产生的人类基因组38个细胞系的CTCF结合位点,并将他们分为细胞特异的结合位点和普遍存在的结合位点。这些细胞特异的和普遍存在的CTCF结合位点展示了独特的多样转录功能和独具特色的染色质特征。另外,我们确认了CTCF行使着隔离子的功能,并且首次发现CTCF参与DNA的复制过程。这些结果表明我们对CTCF全面系统的理解迈出了重要的一步。接下来,从整体上研究基因组上的开放区域DHSs。DHSs是基因组上功能元件的候选区域,全基因组DHSs图谱为转录调控区域的研究提供了重要线索。我们系统识别和注释了人类基因组29个不同细胞系中的DHSs,试图找到DHSs与组蛋白修饰、基因表达之间的关系。通过研究,我们发现了不同细胞系中dhss、基因表达、活性和抑制组蛋白修饰数量之间的特殊关联。这些关联揭示了染色质域四个截然不同的结构状态:抑制态(repressive)、活性态(active)、原始态(primed)、二价态(bivalent),不同的状态对应不一样的功能。更进一步,通过这些数据的整合分析,我们找到了ccctc-结合因子ctcf。我们的研究结果揭示了包括dna酶i超敏位点和组蛋白修饰的复杂调控过程,并且表明这些动态元素可能负责维持染色体的结构和染色体的完整性。同时,在该研究中,我们基于不同技术平台的多组学大数据,运用整合组学方法,提出了对转录调控机理更有意义的见解,这是是多平台多组学大数据整合的一个值得参考的实例。第三,扩展到大量功能元件的识别。要准确识别大量功能元件、获取众多转录因子结合位点信息十分困难,传统的实验手段几乎不可能完成所有转录因子结合位点的定位。幸运的是,转录因子在基因组上的结合位点具有一定的特异性,可以根据这一特异性来识别转录因子结合位点。transfac、jaspar、trrd、tred、pazar等转录因子数据库提供了大量转录因子的模体信息,基于这些资源,作者开发了一套模式序列识别算法iform,在基因组上的开放区域(dhss)识别转录因子结合位点。与国际上主流的模式序列算法fimo、consensus、homer、rsat、storm相比,iform不但能识别其他算法找到的可靠区间,也能识别其他算法无法找到的可靠区间,并且从roc曲线中也能看出,iform明显优于其他算法。iform算法为全面解析人类基因组上的功能元件奠定了坚实的基础。第四,多细胞系大量功能元件的整合分析。dna酶i超敏感位点定义了基因组中可访问的染色质全景图,使得多物种基因组中顺式调控元件的识别有了革命性的进展。我们基于iform方法识别的人类基因组133个细胞系和组织的转录因子结合位点,运用高斯核函数方法,首次得到了人类基因组上转录因子结合位点聚集区间(tfbs-clusteredregions,简称聚集区间)全面图谱。我们总共找到了近160万个聚集区间,涵盖了基因组上27.7%的碱基,并且依据每个聚集区间中转录因子结合的数量赋予其转录因子复杂度。转录因子复杂度与聚集区间的基因组位置、细胞特异性、进化保守性、序列特征以及功能作用均显著相关。采用encode数据对聚集区间整合分析发现:转录因子结合、转录活性、组蛋白修饰、dna甲基化以及染色质结构均随着转录因子复杂度的改变而有规律的变化。更进一步,我们发现,对不同终端细胞系的聚集区间进行聚类,能够重现细胞系的谱系进化规律。基于我们的研究结果,提出了基因组上的不同复杂度的转录调控模型。最后是转录因子调控网路研究。转录因子在基因上游调控基因表达,基因表达产物为转录因子,又可以调控基因,这就构成了转录因子调控网络。利用iFORM算法,我们得到了133个细胞系中542种转录因子的结合位点信息,加上GENECODE数据提供了542个转录因子对应的基因的位置信息,作者分别为133个细胞系分别构建了转录调控网络。进一步,对不同细胞系之间网络进行比较发现,不同细胞系的调控网络都保持着一致的网络结构模式。并且找出了各谱系代表性的网络结构实例,其中,POU5F1、SOX2、NANOG构成的FFL回路是胚胎干细胞中所特有的网络结构实例。