论文部分内容阅读
随着二代测序技术的不断发展,RNA-seq得益于其单碱基水平的精度与高测序深度已逐渐发展成为转录组研究的一个最有力工具,能够捕获较以往技术更多的转录本尤其是那些表达丰度较低或组织特异性表达的转录本。小鼠(Mus musculus)作为生物学研究领域常见的模式生物,与人具有十分相近的亲缘关系,共享着很大一部分的基因与遗传物质。因此,本研究拟基于小鼠15个重要组织(大肠、小肠、胃、睾丸及脑等)的RNA-seq数据对小鼠进行全基因组的重注释,主要包括原注释基因的修订、非编码基因的鉴定以及House-keeping基因和Tissue-specific基因的重定义与全方位注释。非编码RNA (ncRNA)是指那些由DNA转录生成,结构与mRNA类似,但是不编码任何蛋白产物的RNA分子,通常只在RNA水平行使其生物学功能。它们长度不一、功能各异,如miRNA与siRNA主要介导目标基因的表达沉默,lncRNA则呈现非常多样性的调控功能,在转录干扰、可变剪接调节、蛋白转运等众多生物学过程均发挥重要调控作用。尽管越来越多的非编码RNA被陆续鉴定出来,但仍有大量的非编码RNA未知。本研究利用一系列软件(GSNAP、Cufflinks、CPC、CPAT等)搭建了完整的非编码RNA基因鉴定流程,并对8,040个原注释基因(NCBI、Ensembl以及UCSC)进行了重注释。最终,我们从15个小鼠组织中鉴定获得可信度较高的16,249个非编码RNA基因并对它们进行了分类,其中有2,024个属于已知基因内含子区的intronic lncRNA(ilncRNA)。与已知编码基因的比较研究发现,非编码RNA基因具有显著少于编码基因的exon个数、基因长度及序列保守性,在各组织中表达量均低于编码基因且呈现明显的组织特异性表达特征,同时,所有非编码基因的TSS位点均呈现组蛋白甲基化修饰、CAGE与RNAⅡ信号的显著富集。研究还发现,ilncRNA与其宿主编码基因和相同染色体上相邻(距离<10kb)蛋白编码基因均具有“共表达”现象,其表达相关性显著高于随机获得的基因对(p<2.2e-16,t检验),且这两类编码基因在功能上均在转录调控富集,与前人报道的基因间区lncRNA结果一致。对所有ilncRNA进行功能预测发现,这一类基因在众多生物学功能如核糖体组成、翻译调控、免疫效应及组织发育等均有富集。House-keeping基因又叫持家基因,通常在生物体所有组织或细胞中均表达,其表达水平不受组织类型、发育时期及细胞周期状态的影响,被认为是维持细胞生命的最小基因集合,可用作实验内参基因(如Gapdh, Actb及Ubc)。Tissue-specific基因则是指只在某一个特定类型的组织中表达,而在其他组织中不表达或表达量极低的基因,可以用于疾病诊断与靶向治疗(如LRRC4、TNNC1)。基于小鼠相同15个组织的RNA-seq数据,我们利用Cuffdiff对UCSC RefGene中23,374个小鼠注释基因进行了表达定量,并根据各自的表达宽度定义出8,408个House-keeping基因(HK基因)与2,581个Tissue-specific基因(TS基因)。其中有8,005个HK基因与人同源,且有6,778个同为人的HK基因。利用CV模型对HK基因分类,仅获得143个(2%)在15个组织中恒定表达的HK基因,而TS基因中睾丸与脑组织所占比例最大。组织层次聚类分析发现同一系统或胚层内的组织倾向于聚在一起,如内胚层的消化系统(大肠、小肠、结肠与胃等),这在一定程度上反映了基因表达模式与组织特异生理功能之间的联系。DAVID功能富集分析与IPA生物学通路富集分析结果表明,HK基因多在细胞基础功能与活动富集,而组织特异性表达基因潜在的生物学功能则与各自组织所具有的特殊生理功能密切相关,如睾丸TS基因在精子发生与有性生殖等通路显著富集,而脑TS基因则更多富集在神经传递与突触等过程。此外,我们挑选了18个恒定表达的HK基因进行Real-time RT-PCR验证与GeNorm稳定性评估,最终获得了一个表达稳定性较高的新型内参基因列表:Grcc10, Ddb1, Ywhae, Eif4h及Gpatch3,其中任意三个基因的组合均可用作其他表达定量实验的内参对照。本课题的研究结果不仅丰富了小鼠注释信息的数目与类别,还为其他领域的生物学研究与人类生理病理学研究提供了新的契机与数据来源。