论文部分内容阅读
生物体在时空条件下通过RNA转录、蛋白翻译、代谢物积累、表观调控等协同作用,维系生物体的平衡,适应多变的生存环境。在全基因组水平进行表达数量性状位点研究并构建调控网络,可以更全面地阐述基因或sRNA等在时空特异条件下的调控模式,探索基因与sRNA在表达调控中的上游调控因子与下游靶标,挖掘基因和sRNA的功能,并揭示它们在维系生物体稳态中发挥的作用。表达数量性状位点(eQTL)分析就是把基因或sRNA等在群体中的表达量作为数量性状(即表达性状)进行QTL定位,检测控制RNA表达变异的遗传位点。不同于传统的QTL定位,eQTL定位还可以鉴定表达性状变异的调控模式即顺式作用(cis-eQTL)或反式调控(trans-eQTL)。寻找控制表达性状遗传变异的trans-eQTL,即鉴定表达性状的上游调控因子,是eQTL研究的一个重要的任务。同时,一个调控子的表达变异也可能定位到trans-eQTL,被其它因子所调控。这种多个表达性状和其trans-eQTLs所揭示的调控子和靶标的相互关系便形成一种网状的结构,为调控网络的构建提供了最基本的元件。所以整合eQTL和共表达分析可以用来鉴定候选调控子,增加检测的力度。本研究结果如下:1.发芽72h苗期样品eQTL研究我们将珍汕97、明恢63以及由其杂种F1通过单粒传多代自交获得的重组自交系(110RILs)浸种催芽,取露白72h后的幼芽,提取RNA,与Affymetrix GeneChip Rice Genome Array杂交并获取全基因组探针组信号值。利用601个重组bins的遗传连锁图,和复合区间作图方法(CIM)进行全基因组eQTL定位。通过全基因组排列测验,获得eQTL定位的LOD阈值3.12(P=0.05)。16,372个e-traits共获得了26,051个eQTLs。其中4464个是cis-eQTLs,相对于trans-eQTLs, cis-eQTLs具有更大LOD值,并能解释更多的表达量的变异。eQTL并不是随机分布在各个染色体上,在第三、第五、第十染色体上出现了明显的富集,可能存在eQTL热点。我们以每1cM为区间,统计每个区间内eQTL的个数,鉴定了171个潜在的热点区,并对这些热点区进行GO功能富集分析。在所有可能的热点区中,有21个GO类在37个热点区中显著富集。其中GO:0006259(DNA代谢)在5个热点区都存在显著的富集(Chr03:401-402cM、Chr05:717-718cM、Chr10:1205-1206cM、Chr10:1243-1244cM、Chr10:1244-1245cM)。同时结合基因在群体水平的共表达分析鉴定了调控这些DNA代谢相关基因的候选调控子。通过计算所有定位到cis-eQTL的4464个表达性状与其置信区间内共定位的trans-eQTLs所对应e-traits的表达相关性,鉴定了99个基因与多于30个具有trans-eQTLs共定位的e-traits显著共表达。其中有24个基因与100-425个具有trans-eQTLs共定位的e-traits显著共表达,而这些最显著的候选调控子并不是转录因子,因此非转录因子基因也可以在全基因组基因表达调控中发挥重要的作用。通过比较苗期干重QTL定位的LOD值曲线和eQTL热点图谱,发现传统表型QTL和eQTL的热点区有重叠,而且重叠区域内大量共定位的eQTLs对应的表达性状与表型性状值显著相关,该表型可能是由大量基因的相互调控导致的。2.水稻见穗期剑叶eQTL的研究本研究利用水稻全基因组芯片获取珍汕97、明恢63以及其重组自交系群体(210RILs)的见穗期剑叶组织的表达谱,并结合1619个重组bins图谱定位控制水稻剑叶时期基因表达变异的遗传因子,即表达数量性状位点(eQTLs)。了解控制各表达性状变异的作用模式(cis-eQTL及trans-eQTL),鉴定trans-eQTLs调控热点,并构建水稻时空特异性的基因表达调控网络。以探针组在至少三分之一的RILs中表达为筛选阈值,获得了21,929个具有MSUV6.1注释的表达性状(e-traits)。结合1619个重组bins标记构成的高密度图谱,进行全基因组eQTL定位。10,725个e-traits共获得13,647个eQTLs,包括37.2%的顺式作用的eQTLs,以及62.8%的反式调控的eQTLs。根据物理图谱和遗传图谱的分布,有4条染色体上的eQTL数比期望的要多,可能存在eQTL分布热点。通过卡方测验检测每个bin中实际定位的trans-eQTLs和期望的trans-eQTLs以及超几何测验检测每个bin中观测到的trans-eQTLs和定位到cis-eQTL的e-traits,共获得了138个显著的trans-eQTL热点bins (P<0.01)。通过整合见穗期剑叶eQTL对应的e-traits的表达图谱和基因注释(功能相关的基因,如GO分类等)以及一种扩展的迭代组合分析方法可以对控制基因表达变异的候选调控子进行筛选。利用参与相同生物学功能的基因进行网络构建,可以帮助我们分析基因调控的上下游关系,并减少假阳性的产生,有助于提高网络构建的可行性。通过GO注释信息与文献中提到的水稻开花相关基因与穗发育相关基因的收集,得到177个相关e-traits,共定位到170个trans-eQTLs和109个cis-eQTLs,其中61个cis-eQTLs的置信区间与至少一个开花相关trans-eQTLs共定位,被定义为group(候选调控子),与cis-eQTL共定位的trans-eQTLs所对应的开花基因为每个group的members,是候选靶标基因。通过计算所有候选调控子和候选靶标的表达相关性,利用iGA(迭代组合分析)的方法,我们鉴定了8个调控子,并根据调控子和靶标基因之间的相互作用情况构建了见穗期开花相关基因的调控网络。为了确认该网络的真实性,我们利用珍汕97和珍汕97背景的Ghd7近等基因系NIL (mh7)的见穗期剑叶材料检测了Ghd7下游靶标的转录水平。约80%的统计结果能够得到实验的验证。我们同样将此策略运用到产量相关的表型QTL。phQTLs和trans-eQTLs热点的重叠说明定位到热点区的trans-eQTLs对应的表达性状或多或少都会与相应的表型相关。有些直接控制某种农艺性状,有些则通过作用于某些基因与该性状相关,而有的则是因为该性状的产生导致了基因表达的变化,存在一种反馈调节。3. sRNA在永久F2群体中的表达变异表达数量性状位点在发掘控制基因表达水平的遗传变异位点上已经取得了相当大的进展,可以在全基因组水平鉴定特异的顺式、反式调控区域,构建基因表达调控网络。eQTL定位的概念也可以扩展到sRNA的表达变异,用来检测控制群体中sRNA表达变异的遗传组分。我们利用永久F2群体分析了sRNA在该群体中的表达变异、变异方式和特征,试图解析调控sRNA表达变异的遗传调控因子。我们首先构建了SNP替换的亲本参考基因组。对所有的杂合材料,同时将reads比对到珍汕97参考基因组和明恢63参考基因组。最后比对的reads将分成三种类型。亲本之间保守的sRNAs;在杂合材料中等位特异表达的sRNAs;特异来源于某一亲本的sRNAs。0.71%含有SNP位点的sRNAs和17%亲本特异表达的sRNA与珍汕97和明恢63的遗传多态性相关。sRNA表达性状在基因组上分布非常广泛,大量的sRNA表达性状都集中在基因启动子区(基因上游2kb)和基因3’端(基因下游500bp)。24nt的sRNAs在sRNA王国中是最丰富的,充分表现了其序列多态性,而21nt的sRNA具有更高的表达丰度。总共有563,904个sRNA e-traits定位到81,096个sQTLs(eQTLs for sRNA e-traits),其中45,438个sQTLs(56.0%)表现出显著的显性效应(P<0.05,1000permutations)。其中92.3%sQTLs位点呈现出显著的负向显性效应,即调控sRNA表达变异的位点在杂合材料中的表达水平比中亲值要低。揭示了群体中sRNA表达变异的显性负调控模式,与中亲值相比,更多的sRNA在杂合基因型材料中呈现出下调的趋势。同时大约96%的具有显著超显性效应的sQTLs都是trans-sQTLs。认为在水稻永久F2群体中,负向显性的trans-sQTLs在sRNA的表达变异中发挥着主导作用。不同于控制基因表达变异的eQTLs, cis-sQTLs同样具有热点,这是由sRNA表达性状的富集产生的。共获得了317个cis-sQTLs的热点bins (p<0.01),最显著的5个热点区在第二、第三和第七染色体。同样有385个bins是trans-sQTLs的热点区。最显著的5个热点在第四、第五和第九染色体。大多数cis-sQTLs和trans-sQTLs的热点区都是不同的。对24nt的sQTL而言,最显著的trans-sQTL热点是Bin770(Chr05)和Bin635(Chr04),而21nt的trans-sQTL热点是Bin841(Chr06)和Bin449(Chr03)。通过比较OsDCLs、OsAGOs和OsRDRs的eQTLs与trans-sQTL热点共定位的情况,发现这些基因虽然在sRNA的生物合成中发挥着至关重要的作用,但却不是控制大量sRNAs表达变异的trans-sQTL(主调控子)。miQTLs定位结果显示miRNA的不同变体在复杂的转录过程中受到不同的遗传因子的调控。而且在遗传群体变异的水平上,miRNA对其相应的调控靶标并没有显著的负调控效应。