论文部分内容阅读
生物信息学是生物学与计算机、数学等领域的一门交叉学科。随着世界上各个组织、国家对生物学的重视,越来越多的生物信息以电子数据的形式存储,存储方式包括关系数据库、文本文献等。如何有效地利用这些丰富的生物信息资源是一项巨大的挑战,同时又具有非常重要的意义。数据挖掘、文本挖掘是从这些海量的生物电子数据中挖掘有用规律的重要技术手段。论文第一章,我们重点从顺式作用元件、反式作用因子、激素的调节、siRNA调控等6个方面对转录调控进行了阐述。然后介绍了将ChIP与第二代测序技术相结合的ChIP-Seq技术。接着综述了基因组中常见的重复DNA序列,介绍了其可能的产生机理、分布情况和生物学功能。最后介绍了TCF7L2基因,及其参与Wnt信号传导通路的背景知识,综述了TCF7L2基因与2型糖尿病及癌症等关系的最新研究进展。TCF7L2转录因子与很多人类疾病有关,如2型糖尿病和癌症。TCF7L2可能会影响与不同疾病相关的基因的表达,这是通过结合到不同的组织中的不同的调控区域引起的。为了证明这一假设,在论文第二章我们做了TCF7L2在六种不同的癌症细胞中的ChIP-seq分析。我们识别了116000个非冗余的TCF7L2的结合位点,其中仅仅有1864个位点是六种细胞所共有的。ChIP-seq实验表明被H3K4mel和H3K27Ac标记的大多数基因组区域都是TCF7L2的结合位点,这表明TCF7L2起着影响增强子活性的作用。对TCF7L2细胞类型特异性位点的生物信息学分析表明这些位点上多个转录因子的motifs,如HepG2细胞中的HNF4a和FOXA2motifs和MCF7细胞中的GATA3motif,丰度很高。ChIP-seq分析揭露了在HepG2细胞中,TCF7L2与HNF4a和FOXA2共定位,在MCF7细胞中TCF7L2与GATA3共定位。有趣的是,在MCF7细胞中TCF7L2motif在大多数TCF7L2位点丰度很高,但在GATA3和TCF7L2共同结合的位点上丰度却不高。这一分析表明TCF7L2可能是被GATA3栓系到基因组的这些位点上。为了证明这一假设,我们使用在MCF7细胞中敲除了GATA3的siRNA数据,这-数据表明在这些位点上TCF7L2不再结合。RNA-seq分析表明被GATA3栓系到基因组上的TCF7L2起的是抑制转录的作用。我们的研究表明GATA3和TCF7L2的一种新的关系,并揭示了TCF7L2-介导的基因调控的重要的见解。基因转录调控网络是细胞内基因之间的相互作用关系的整体表示,是生命功能在基因表达层面的展现。最近多种生物信息学(计算分子生物学)工具和高通量实验技术的发展,使得重建复杂的基因调控网络成为可能。基因调控网络模型试图从DNA微阵列等海量数据中推断基因之间的调控关系,从而揭示复杂的生命现象,虽然此目标远未完成,但可以从现有实验数据中重建基因调控网络的工作可以促进在分子和遗传水平上系统地剖析细胞的功能,这是功能基因组学中的重要研究内容,也是当前生物信息学和系统生物学研究的最具挑战性的前沿课题之一。TCF7L2转录因子与人类众多疾病相关,如2型糖尿病和癌症,已有大量的研究表明,TCF7L2是目前为止发现的与2型糖尿病发病关系最密切的易感基因,并且在不同种族的人群研究中有较高的重复性。最近的研究表明其对肝癌、乳腺癌和胰腺癌等几种类型的人类癌症的发病也起到调控作用。然而,人们对TCF7L2在这些疾病所起的功能尚不清楚。一个假设是,TCF7L2是以组织特异性的方式调节其下游的靶基因,TCF7L2在不同的细胞类别中结合到不同的转录调控区,从而影响不同疾病中基因的表达。尽管全基因组分析识别了成千上万个TCF7L2结合位点,但是TCF7L2相关的转录调控网络还是未知的。我们识别了MCF7细胞中的30119个TCF7L2结合位点。在论文第三章,我们应用了计算的办法分析了ChIP-seq数据并研究了调控乳腺癌MCF7细胞的TCF7L2和TCF7L2协同转录因子的转录调控网络。我们通过用TF特异性位点权重矩阵(PWM)扫描CHIP峰的区域来构建转录调控网络。我们发现FOXO1, CAD, GATA3包含在上调基因里,AP2a,PBF,GATA3,AP1被发现是下调基因。我们的研究通过分析MCF7的ChIP-seq数据推导出新的TCF7L2相关的转录调控网络。我们的计算机分析方法使得生物学家能够进一步研究乳腺癌细胞或是其他人类疾病的潜在机制。尽管大量的计算工具已经被发明出来用来分析ChIP-seq数据,一个很大的限制是,大多数现有的工具,忽略非唯一匹配的序列标签(NUTS),包括多个匹配的序列标签(MMTS)和没有匹配的序列标签(NMTS),并仅仅专注于那些唯一匹配的序列标签(UMTS)。然而,在ChIP-seq数据中,NUTS含有占所有原始序列标签高至60%的数据。有效地利用这些NUTS会增加每个样品的测序深度,并允许更精确的检测富集的结合位点和靶基因,这反过来又可能导致更为精确和显著的生物诠释。在论文第四章,我们已经开发出了一个计算工具,LOcating Non-Unique matched Tags (LONUT),它可以改进对ChIP-seq数据中富集区域的检测。我们的LONUT算法应用了一个线性和多项式回归模型,建立了一个的经验得分(ES)的公式,这个公式中考虑了两个影响因素,NUTs到UMTS识别峰的距离,和那些峰的富集得分。使用这种分析,每个NUT被分配到参考基因组上的一个唯一的位置。然后,来自NUTs数据集的新的定位的序列标签与原始的UMTS数据集合并在一起,以生成最终的组合匹配标记集(CMTs)。 LONUT在代表三种不同特征的生物数据类型的17个不同的数据集上进行了测试。我们使用de novo motif发掘和ChIP-qPCR检测来对预测的富集地区进行了验证。我们展示了LONUT的充分性,特异性和准确性,实验结果表明我们的程序不仅提高了对富集区域的检测(ChIP-seq的结合位点),而且还识别了来自测序数据的其他的新的富集区域。