基于整合组学策略的人类基因组功能元件的识别与注释

来源 :中国人民解放军军事医学科学院 | 被引量 : 0次 | 上传用户:peiyhpyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着2003年人类基因组计划的完成,我们获得了人类基因组序列这本天书,但依然有许多问题没有解决。一个重要的科学问题困扰着大家:机体中复杂的调控网络是如何编码在一维的基因组上的?识别基因组上所有的功能元件是理解转录调控背后的分子机制的必要前提,因而解决这个问题的关键是精确识别与注释人类基因组上的重要功能元件。然而传统的实验手段如识别特殊的转录因子结合位置(ChIP,染色质免疫沉淀)在大量功能元件的识别与注释上有诸多限制,如仅适用于与已知的反式作用因子、依赖于分离相应转录因子的高质量ChIP级的抗体、价格昂贵等。近几年国际上开展的大型科学计划,包括ENCODE计划、modENCODE计划、表观路线图计划等,提供了近700T功能元件识别与注释相关的各组学公共数据;加上新一代测序的蓬勃发展,结合生物信息学分析技术的进步,为全面解析人类基因组中的功能元件提供了可能。基于这些大数据资源,作者展开了人类基因组功能元件的识别和注释研究。首先,研究从单个有代表性的功能元件入手。染色质上的隔离子是调控基因表达水平的DNA功能元件,他有两种方式来行使功能:一种是通过维持异染色质边界来阻止基因沉默,另一种是阻止增强子和启动子的作用关系来阻止基因转录的激活。CCCTC结合因子(CTCF)是一个广泛表达的11-锌指DNA结合蛋白,是脊椎动物中唯一的一个与隔离子相关的蛋白。虽然CTCF与众多调控功能相关,但他只在人类基因组少量细胞系中被研究,因此,并不确定所识别的细胞特异性差异的CTCF结合位点是否在功能上有显著差异。我们识别了ENCODE计划产生的人类基因组38个细胞系的CTCF结合位点,并将他们分为细胞特异的结合位点和普遍存在的结合位点。这些细胞特异的和普遍存在的CTCF结合位点展示了独特的多样转录功能和独具特色的染色质特征。另外,我们确认了CTCF行使着隔离子的功能,并且首次发现CTCF参与DNA的复制过程。这些结果表明我们对CTCF全面系统的理解迈出了重要的一步。接下来,从整体上研究基因组上的开放区域DHSs。DHSs是基因组上功能元件的候选区域,全基因组DHSs图谱为转录调控区域的研究提供了重要线索。我们系统识别和注释了人类基因组29个不同细胞系中的DHSs,试图找到DHSs与组蛋白修饰、基因表达之间的关系。通过研究,我们发现了不同细胞系中dhss、基因表达、活性和抑制组蛋白修饰数量之间的特殊关联。这些关联揭示了染色质域四个截然不同的结构状态:抑制态(repressive)、活性态(active)、原始态(primed)、二价态(bivalent),不同的状态对应不一样的功能。更进一步,通过这些数据的整合分析,我们找到了ccctc-结合因子ctcf。我们的研究结果揭示了包括dna酶i超敏位点和组蛋白修饰的复杂调控过程,并且表明这些动态元素可能负责维持染色体的结构和染色体的完整性。同时,在该研究中,我们基于不同技术平台的多组学大数据,运用整合组学方法,提出了对转录调控机理更有意义的见解,这是是多平台多组学大数据整合的一个值得参考的实例。第三,扩展到大量功能元件的识别。要准确识别大量功能元件、获取众多转录因子结合位点信息十分困难,传统的实验手段几乎不可能完成所有转录因子结合位点的定位。幸运的是,转录因子在基因组上的结合位点具有一定的特异性,可以根据这一特异性来识别转录因子结合位点。transfac、jaspar、trrd、tred、pazar等转录因子数据库提供了大量转录因子的模体信息,基于这些资源,作者开发了一套模式序列识别算法iform,在基因组上的开放区域(dhss)识别转录因子结合位点。与国际上主流的模式序列算法fimo、consensus、homer、rsat、storm相比,iform不但能识别其他算法找到的可靠区间,也能识别其他算法无法找到的可靠区间,并且从roc曲线中也能看出,iform明显优于其他算法。iform算法为全面解析人类基因组上的功能元件奠定了坚实的基础。第四,多细胞系大量功能元件的整合分析。dna酶i超敏感位点定义了基因组中可访问的染色质全景图,使得多物种基因组中顺式调控元件的识别有了革命性的进展。我们基于iform方法识别的人类基因组133个细胞系和组织的转录因子结合位点,运用高斯核函数方法,首次得到了人类基因组上转录因子结合位点聚集区间(tfbs-clusteredregions,简称聚集区间)全面图谱。我们总共找到了近160万个聚集区间,涵盖了基因组上27.7%的碱基,并且依据每个聚集区间中转录因子结合的数量赋予其转录因子复杂度。转录因子复杂度与聚集区间的基因组位置、细胞特异性、进化保守性、序列特征以及功能作用均显著相关。采用encode数据对聚集区间整合分析发现:转录因子结合、转录活性、组蛋白修饰、dna甲基化以及染色质结构均随着转录因子复杂度的改变而有规律的变化。更进一步,我们发现,对不同终端细胞系的聚集区间进行聚类,能够重现细胞系的谱系进化规律。基于我们的研究结果,提出了基因组上的不同复杂度的转录调控模型。最后是转录因子调控网路研究。转录因子在基因上游调控基因表达,基因表达产物为转录因子,又可以调控基因,这就构成了转录因子调控网络。利用iFORM算法,我们得到了133个细胞系中542种转录因子的结合位点信息,加上GENECODE数据提供了542个转录因子对应的基因的位置信息,作者分别为133个细胞系分别构建了转录调控网络。进一步,对不同细胞系之间网络进行比较发现,不同细胞系的调控网络都保持着一致的网络结构模式。并且找出了各谱系代表性的网络结构实例,其中,POU5F1、SOX2、NANOG构成的FFL回路是胚胎干细胞中所特有的网络结构实例。
其他文献
在50,k W循环流化床燃烧试验台上对大同煤和神木半焦进行了O2/CO2气氛的富氧燃烧试验,试验的进口氧气体积分数为25%,~50%,,燃烧温度为800~950,℃.试验研究的目标是获得燃烧温
全球化的浪潮加速了跨文化交际的进程。然而,全球化是一把双刃剑,作为世界两大强国的中国与美国之间频繁而深入的交流无疑为两国的发展带来了巨大的机遇;然而,文化冲突也为两
目的 :探讨分析对ICU住院患者实施心理护理干预的临床效果。方法 :选取2012年8月至2014年8月间我院ICU收治的患者80例作为研究对象,采用随机数字表法将其分为对照组(40例)和
近几年,随着生态环境的不断恶化,城市空气质量的下降,呼吸系统疾病呈逐渐上升的趋势。西医认为,风温肺热病是一种急性发作的呼吸系统疾病。在中医理论中,风温肺热病是症状相
本文主要阐述了计算机的日常维护方法,分析了常见的计算机故障现象,给出了常见故障的有效诊断及处理方法。
目的:观察和分析桡骨远端骨折AO分型的手术和非手术治疗效果。方法:选择我院2012年1月至2013年1月收治的120例桡骨远端骨折AO分型患者为研究对象,将其随机分成观察组和对照组
在日语教学中,我们会遇到很多由动词附在て之后构成的惯用文型,「ていく」与「てくる」就是较为典型的案例,也是基础的惯用型之一。很多初学者对它们的用法和区别还不太清楚,
基于循环流化床锅炉流态优化,研究了改变床压降运行对其燃烧效率的影响。以480 t/h CFB锅炉为对象,实验测量了不同床压降下的飞灰、底渣含碳量变化,并建立一维CFB燃烧模型进
小额信贷开始创立于上个世纪的80年代,为了能够有效的配置农村金融市场资源,吸收了农村正规和非正规的金融成功的经验和失败的教训的新的金融创新方式,主要是在一定的区域内,以特
循环流化床锅炉内以CO为主的还原性气体,在大量灰的催化下对NO具有显著的还原作用。针对NO-CO反应动力学进行实验研究,重点考察了灰的存在及其成分对该反应速率的影响。实验