论文部分内容阅读
转录组是研究从基因组到表型的重要中间环节。研究转录组的高通量技术主要有两类,一类是以杂交为基础的基因芯片技术,另一类是以测序为基础的RNA测序技术(RNA-Seq)。基因芯片价格相对RNA-Seq便宜,但该方法存在很多缺陷,例如所检测的物种必须是已知基因组序列的物种;杂交本身会产生高的背景值;比较不同实验组的基因表达水平比较困难,需要复杂的标准化方法。而RNA-Seq不需要探针;可以定量研究转录本,并能发现新的转录本;能够分析基因组图谱尚未完成的物种;具有信噪比高、特异性好、所需RNA样品量少、应用范围广等优势。RNA-Seq是转录组研究高效有力的分析工具,对真核生物转录组分析具有革命性作用。人们利用RNA-Seq研究基因结构(基因边界UTR和可变剪接)、基因变异(基因融合和编码区SNP)、非编码区域功能(长非编码RNA和microRNA前体)以及基因差异表达。随着测序成本的降低,测序技术代替基因芯片技术是大势所趋。血系分化能够产生不同类型的细胞,影响着生物体的生长和发育,研究白血病细胞系的分化机制对血系分化和治疗血液疾病具有重要意义。K562细胞属于红白血病细胞系(erythroleukemia cell line),类似于巨核细胞(megakaryocytic cell,MK)和红系细胞(erythroid cell,E)的前体细胞。K562细胞能够被氯高铁血红素hemin诱导成红系细胞,也能被丙二醇甲醚醋酸酯(phorbol-12-myristate-13-acetate,PMA)诱导成巨核细胞。因此,该细胞可以提供一个研究细胞分化及其转录调控的模型。细胞分化的转录调控机制十分复杂,多种生物因子包括microRNA(miRNA)和转录因子(TF)对基因的表达和翻译具有重要的调控作用。本论文首先通过比较GEO数据库中K562细胞红系分化和巨核细胞分化基因芯片数据,分析了K562细胞分化相关转录因子介导的基因调控网络。鉴于这两组数据来自不同的实验组,其实验处理条件、时间各不相同,为了进一步阐明红系和巨核细胞分化的机制,本论文分别对K562细胞红系分化(第2、6、24和48小时)和巨核细胞分化(第2、6、24和48小时)对应的多个时间点进行了RNA-Seq测序,同时结合K562细胞分化相关TF和mi RNA数据,利用系统生物学方法在多个层次上研究K562细胞分化的转录调控机制,确认了细胞分化密切相关的关键基因和信号通路,为进一步研究相关基因的可变剪接、基因结构、融合基因以及1ncRNA对其影响奠定了基础。本论文还对K562细胞基因间区长非编码RNA (lincRNA)的稳定性进行了分析,为进一步研究红系和巨核细胞分化过程中1ncRNA的作用奠定了基础。总之,本研究将有助于解释基因组的功能,揭示细胞分化的转录调控机制,加深人们对基因表达和调控网络复杂性的认识,促进白血病的研究和治疗。本论文的主要研究内容和成果如下:(1)K562细胞分化相关转录因子介导的基因调控网络分析我们通过分析GEO数据库中K562细胞红系分化的多个时间点基因芯片表达谱数据(GSE1036,Human Genome HU133A oligonucleotide array GeneChip),发现281个基因(332个探针)上调和402个基因(479个探针)下调。同样,通过分析GEO数据库中K562细胞巨核细胞分化的多个时间点基因芯片表达谱数据(GSE12736,Illumina HumanRef-8 Expression BeadChip),发现683个基因(755个探针)上调和735个基因(810个探针)下调。我们通过对比这两组分化数据确定了红系分化和巨核细胞分化中表达趋势相反的88个基因(divergently expressed genes)。利用ChIP-Seq数据库中3个血系分化特异性转录因子(GATA-2、GATA-1和PU.1)的全基因组绑定图谱信息,构建了基于这88个基因的转录因子介导的基因调控网络,并使用qPCR实验对其中部分基因进行了验证。通过对该网络进行核心基因分析、次级网络分析以及G0基因功能富集分析,发现7个核心基因(SPI1、GATA-2、GATA-1、ID2、JUN、 MYC和EGR-1)和5个相互作用的基因单元(ID2、MYC、 PIM1、STAT5B和SAC3D1)可能与红系和巨核分化密切相关,尤其是2个共有基因ID2和MYC。这些结果为红系和巨核细胞分化研究提供了新的线索和思路。(2)K562细胞分化相关转录因子和miRNA共同介导的基因调控网络分析我们对hemin诱导K562细胞红系分化过程中第2、6、24和48小时和PMA诱导K562细胞巨核分化过程中第2、6、24和48小时以及未处理K562细胞总共9个样本分别进行了RNA-Seq测序。9组测序数据分别进行质量控制、片段(read)匹配分析以及转录组重建。通过比较处理组和未处理组,在巨核分化过程中确认了4,216个差异表达基因(基因芯片数据中只有1,418个差异表达基因),其中234个基因在所有检测时间点都存在。同样,在红系分化过程中确定了1,826个差异表达基因(基因芯片数据中只有683个差异表达基因),大部分差异表达基因出现在24小时(1,506个)和48小时(1,016个)两个检测时间点。K562细胞巨核分化第2小时就出现了1,959个差异表达基因,而红系分化直到第6小时才只出现了32个差异表达基因。而且红系分化过程中差异表达基因数目比巨核分化过程中差异表达基因少2,390。这些结果表明巨核分化比红系分化更剧烈。通过比较K562细胞红系和巨核细胞分化的RNA-Seq数据,有195个表达趋势相反的基因(包括GATA-2EGR-1)显著富集在notch信号通路。我们运用K-means聚类方法对两种分化过程分别进行聚类分析,红系分化过程中的差异表达基因被分为8类,其中第1类(下调)和第4类(上调)基因与细胞分化相关;巨核分化过程中的差异表达基因被分为10类,其中第3类(上调)和第8类(下调)基因与细胞分化相关。通过分析SRA数据库中红系和巨核细胞分化相关的转录因子GATA-1、 GATA-2、EGR1、MYC、JUN和FOS的ChIP-Seq数据,分别获得其全基因组绑定图谱。它们的靶基因中包含4,863个差异表达基因,分别为4,623个(EGR1),2,794个(FOS),1,724个(GATA1),3,477个(GATA2),3,403个(JUN)和3,215个(MYC)差异表达基因。我们还分析了这6个转录因子的差异表达靶基因在细胞分化相关的类中分布情况(包括红系分化中第1和4类、巨核分化中第3和8类以及表达趋势相反的基因)。多个转录因子的联合作用更有利于调控同一个靶基因,有848个差异表达基因可以同时被上述6个转录因子绑定,其中40个基因是表达趋势相反的基因。根据文献分析,我们确定了14个红系分化相关的miRNA和15个巨核分化相关的miRNA。运用3个常用miRNA靶基因预测软件(TargetScan、miRanda和PicTar2)分别预测每个miRNA的靶基因,其中至少两个miRNA靶基因预测软件都预测到的靶基因作为每个miRNA高度可信靶基因。我们获得被红系分化相关miRNA绑定的高度可信靶基因有3,846个(其中1,148个差异表达基因)和被巨核分化相关miRNA绑定的高度可信靶基因5,555个(其中1,670个差异表达基因)。我们分别分析了靶基因数目最多的5个红系分化或巨核分化相关的miRNA在红系分化的第1和4类、在巨核分化的第3和8类以及在表达趋势相反的基因中的靶基因分布。我们也确定了243个差异表达基因可以同时被至少3个与红系分化相关的miRNA绑定(其中56个基因也可以被6个转录因子同时绑定)和432个差异表达基因可以同时被至少3个与巨核分化相关的miRNA绑定(其中102个基因也可以被6个转录因子同时绑定)。根据以上研究结果,本论文构建了一个由多个TFs和miRNAs联合绑定的差异表达基因构成的基因调控网络。通过对该网络进行基因功能富集分析、提取网络核心基因和次级网络以及聚类分析,发现JUN位于这个网络的中心,TGF-beta/Smad信号通路和Ras/ERK信号通路可能与红系和巨核细胞分化密切相关。这项研究提供了一个跨组学整合分析K562细胞红系和巨核分化的研究方法,促进了红系和巨核细胞分化机制的研究。(3)K562细胞lincRNA稳定性研究lincRNA具有组织和细胞特异性表达特征,其稳定性可能与它的生理学功能密切相关。然而,lincRNA稳定性的机制尚不清楚。我们构建了一个lincRNA分析流程,使用iseeRNA、CPAT、CPC和PhyloCSF软件分别过滤具有编码潜能的转录本,获得了更严格的lincRNA数据集。本研究发现K562细胞lincRNA在基因组中每条染色体上普遍转录,暗示lincRNA在K562细胞中可能发挥重要作用。通过分析我们的K562细胞RNA-Seq数据(PH)和ENCODE组K562细胞RNA-Seq数据(GEO数据库中GSM765405数据),在PH组中发现1,804个lincRNAs,其中包括1,564个注释的lincRNAs口240个预测的新1incRNAs。在ENCODE组中发现1,587个lincRNAs,其中包括1,429个注释的lincRNAs和158个预测的新lincRNAs。PH组中有87.4%的蛋白编码基因也在ENCODE组中表达,而PH组中只有44.1%的lincRNA在ENCODE组中表达。我们使用最小自由能分别在FPKM<1和FPKM≥1两种情况下评估了这两组RNA-Seq数据中共有的lincRNAs(795个)和分别独有的lincRNAs(PH组1009个,ENCODE组792个)稳定性,发现共有的lincRNA更稳定,并使用半衰期实验对其中部分lincRNA的稳定性分别进行了验证。本论文通过分析不同转录组数据中共有的lincRNA和独有的lincRNA,依据lincRNA稳定性进行分类,研究表明稳定的lincRNA(共有的lincRNA)和不稳定的lincRNA(独有的lincRNA)可能参与不同的生物学进程。