论文部分内容阅读
技术的发展更新了人类对真核细胞染色质结构的认知。经典的染色体(染色质在分裂期称为染色体)压缩结构模型是:在细胞分裂期,核小体首先构成l0nm纤维,再向上压缩成30nnm纤维、300nm纤维和700nm纤维,把近2m长的DNA压缩在十微米的细胞核中。随着近十多年来染色质构象捕获技术的应用,另一种功能结构模型被提出:在细胞分裂间期,于lOnm纤维的基础上,会形成启动子和增强子连接的环;向上形成物种和细胞间保守的染色质拓扑结构域(Topologically associating domain,TAD);再向上形成隔间(compartment A/B)和整个染色体领域。新染色质三维结构在发育和疾病发生中扮演着重要的角色,如增强子-启动子环和TAD的改变都能直接调控附近基因的表达。作为TAD和sub-TAD边界区域富集的结构因子,CTCF这一锌指蛋白绑定DNA状态的改变(如绑定motif内的DNA突变)会破坏染色质三维结构,进而调控基因表达。这一 CTCF及染色质三维结构关联的基因调控机制在罕见突变所导致的遗传疾病和癌症中发挥着关键的作用。但其与常见突变如人群尺度的遗传多样性位点是否关联尚未研究。另一方面,测序技术的发展使得同时测定成千上万个个体的基因组成为可能,这促进了千人基因组计划的完成。千人基因组包含大量的群体层次常见突变数据,激发了人类遗传多样性的研究,如发现不同人群在肤色、眼睛颜色、乳糖耐受和疟疾耐受等性状的遗传基础——关联基因受到了正选择作用。但此类研究多集中于编码区突变的选择作用,对占绝大部分的非编码区鲜有探究。所以,本研究利用CTCF及染色质三维结构关联的基因调控机制,来探索千人基因组中非编码区突变位点对人类遗传多样性的贡献。本课题利用人类基因组84,000,000个单碱基多态性位点(SNPs),结合新的非编码区域调控机制——影响CTCF绑定的一维序列突变会改变关联的染色质三维空间结构,旨在探究CTCF绑定motif变异调控基因表达机制在人群尺度的普适性;及利用千人基因组这一人群数据来揭示人群特异性SNPs对人群分化的贡献。研究结果共筛选出3,100个位于CTCF绑定motif内部的SNPs,其中54个SNPs是位于已知三维结构边界区域的人群特异SNPs。这54个SNPs共注释到100个关联基因;eQTL数据显示其中的12个SNPs显著影响20个关联基因的表达;其中4个已知功能的基因及对应的非非洲人群特异SNPs分别是:rs876934-WDR66,rs12235009-EXTL3及 rs9471058-KCNK17,rs897804-PRDX2,它们的功能分别影响:精子鞭毛、免疫和骨骼发育、精子数量和红细胞抗氧化能力。结果既筛选出与人群的正选择研究相符的生殖和骨骼发育相关新基因,也发现了新功能如听力相关和红细胞功能等。综上,本研究第一次发现了群体常见变异会改变CTCF绑定和影响关联的染色质三维结构;及人群特有变异调控的基因可能贡献于人类走出非洲后的演化过程。这突显了CTCF及其关联的染色质三维结构在调控基因表达方面的普适性,也为下一步探索染色质三维结构在演化中扮演的角色提供了线索。