论文部分内容阅读
在特定的细胞生命活动过程中,只有少数基因(5-10%)表达。基因组中表达的基因分为两大类:1)持家基因:又称管家基因,是指所有细胞中均要表达的一类基因,其产物是对维持细胞基本生命活动所必需的;2)组织特异性基因:又称奢侈基因,是组织特异性表达有关的基因,与细胞分化有关,在特定组织中保持非甲基化或低甲基化状态,而在其他组织中呈甲基化状态。持家基因以组成型方式在所有细胞中表达,而奢侈基因在特定组细胞中得到表达。这些基因的特异表达与否,决定了生命历程中细胞的发育、分化、细胞周期的调控、体内平衡、细胞衰老、甚至于程序化死亡。对不同类型,不同分化时期细胞的基因或基因表达情况的研究,可以获得整个细胞生命过程的重要信息。持家基因被定义为结构性的基因,在所有组织中都高度表达并维持细胞的基本生命活动,其内含子、非编码区、编码区序列均比较短。在生物学和生理学上持家基因是维持细胞所必需的一系列基本生命活动功能和器官功能的关键。持家基因因与病原体毒性加强有关而为人所知并利用他们进行发现潜在药物靶标的研究,同时持家基因的缓慢演化使其能用于区分亚种进化的研究。此外,持家基因还可作为校正测定基因表达量时的内参基因,许多诊断和研究的定量技术都使用持家基因的表达量作为基准线使数值标准化以此来发现差异基因。系统的挖掘组织特异性基因能够帮组我们更好的理解生物奇特的组织形态及生物行为,能够帮组我们对其进行深入的研究,特别是在作物遗传育种方面,通过反向遗传学大规模的筛选组织特异性基因是一个快速获取重要基因的途径。因此我们从以上角度出发,利用公共数据中的大量数据进行分析设计,对禾本科主要的作物进行全基因组的持家基因与组织特异基因挖掘。我们从PLEXdb (Plant Expression Database)生物数据库网站中收集了大量的Affymetrix表达谱芯片数据,其中包括:30个实验室的362张小麦芯片数据;79个实验室的409张水稻表达谱芯片数据:37个实验室的250张玉米芯片数据;45个实验室的440张大麦芯片数据。同时还从美国国立生物技术信息中心(NCBI)下载了四个物种对应的EST序列和Unigene数据。基于RMA (Robust multi-array average)标准化处理格式的芯片数据,采用我们设计的跨实验芯片数据的候选持家基因筛选出了占整个芯片探针数量5%的探针对应的基因作为候选持家基因,并做了EST富集与Unigene分组织富集验证,结果表明我们筛选出来的候选持家基因有着明显的EST富集和多组织富集的现象。按照5%的探针数量筛选最为稳定的持家基因,我们从小麦获得3065个在不同实验中稳定表达探针,并通过PLEXDB获取了3041条探针对应的序列。在EST富集分析中,有1097条序列被显著性富集(hits>20):有16条序列没有被任何EST序列富集到。显著性富集的比例是35.9%.在Unigene富集中,2307条序列富集上了Unigene,其中非冗余的序列有2143条,有明确的组织结构注释信息的有1670,没有任何富集的序列有734条。在大麦的结果中一共筛选到了1142个探针对应的1124条序列,EST显著性富集的序列有447条,占所有序列的39.77%;Unigene结果中,有1005条候选的非冗余序列比对上了数据库,其中928条有组织信息。相比之下,水稻与玉米的富集率要比小麦与大麦高一些,水稻中有88.57%的序列被大量富集:在玉米的分析结果中,有84%的序列有较好的富集,同时超过90%的序列都有组织注释信息。在水稻中所有的候选基因序列都有相对应的EST序列富集,在玉米中也仅有1条序列没有富集。对候选的持家基因分别进行序列结构、分子功能以及染色体分布特征的分析,进一步验证了筛选出的基因是结构紧密、分子功能必须的维持细胞正常生命活动的基因。这些持家基因在染色体上的分布出现两端富集,在染色体两段分布较多,在着丝粒附近分布较少,这种情况与基因的整体分布情况一致,即在全基因组水平,染色体两段的基因密度远高于着丝粒附近的基因密度。另一方面,通过组织特异性基因流程筛选流程找到的一些非常有趣的小麦种子形成相关的基因,进一步研究分析这些基因将是我们今后工作的重点。通过该实验,提供了一套简单高效的基于不同实验室基因表达谱芯片实现全基因组持家基因与组织特异性基因挖掘与筛选的方法。这套方法同样适用于其他植物或者动物的全基因组功能基因挖掘。