论文部分内容阅读
非编码RNA(noncoding RNAs,ncRNAs)是一类不编码蛋白质的RNA分子。非编码RNA以各种各样的机制行使功能和参与细胞中的各种生命活动。越来越多的ncRNAs在不同的真核生物(特别是哺乳动物)中被鉴定出来,表明在哺乳动物基因组中仍存在着一大批ncRNA分子。因此,在基因组水平筛选和鉴定ncRNA基因对于深入揭示其在细胞调控网络中的作用具有重要意义。
核仁小分子RNA(small nucleolar RNAs,snoRNAs)是真核生物中一大类非编码RNA。根据它们是否反义互补于rRNA或snRNA,可将它们分为向导和孤儿snoRNA。现有的计算机算法在庞大的哺乳动物基因组预测向导snoRNA基因的效果都不够理想,并且无法对孤儿snoRNA基因进行预测。在本研究中,我们开发了一个包含CDseeker和ACAseeker两个程序的高级计算机软件包snoSeeker,在哺乳动物基因组中高效、特异地扫描向导和孤儿snoRNA基因。运用snoSeeker程序,我们系统地扫描了4个人类-哺乳动物的全基因组比较序列。最终不仅鉴定了266个已知snoRNA基因,我们还鉴定出54个新的候选分子,其中包括26个新的孤儿snoRNA基因。进~步的实验验证了18个新的snoRNA基因,其中4个snoRNA基因具有组织特异性或限制性表达模式。本研究是至今为止在人类基因组中对两类snoRNA基因最完整的计算机分析。
基因组印记是一种表观遗传学现象,它是指等位基因根据亲代的不同而有不同的表达。印记snoRNA基因是一类主要表达于哺乳动物脑的小非编码RNA基因,某些印记snoRNA基因还参与mRNA转录后调控。本研究中,我们利用imCDseeker程序系统地扫描12个脊椎动物基因组,其中包括8个哺乳动物基因组。最终,我们在不同哺乳基因组中鉴定了700多个印记snoRNA基因,展现了印记snoRNA基因在哺乳动物中的进化模式。研究发现,同一个snoRNA基因簇的snoRNA拷贝数量在不同物种间变化明显,并且相同基因簇内拷贝之间也存在显著的核菅酸差异。进一步的分析表明,印记snoRNA基因簇可能起源于胎盘哺乳动物而不存在于有袋类哺乳动物。这些研究结果为进一步研究这些大的印记snoRNA基因家族的进化和起源提供了新的视点。
一个基因组的公布往往附带它的基因注释。相对于编码蛋白基因,snoRNA基因的注释经常是缺乏或不一致。这使得基于snoRNA基因的比较和进化研究非常困难。为此,我们利用snoSeeker软件包扫描了20个脊索动物的snoRNA基因,鉴定了5496个保守的snoRNA候选分子,其中包括了指导rRNAs或snRNAs甲基化修饰的2666个向导C/D snoRNA基因、指导rRNAs或snRNAs假尿嘧啶修饰的1128个向导H/ACA snoRNA基因。此外,我们还预测了946个孤儿C/D snoRNA基因和756个孤儿H/ACA snoRNA基因。为了向国际同行提供这些数据资源,我们构建了一个交互的、大规模向导和孤儿snoRNA基因的分析平台——snoGalaxy。对这些snoRNA基因进行系统的分析表明shoRNA基因通过频繁的基因内复制和L1反转座机制产生新的拷贝。我们发现复制产生的snoRNA基因在进化过程中通过序列的突变获得了新的功能。进一步的研究揭示snoRNA的反转座基因可能起源于哺乳动物而snoRNA基因内复制可能是一种古老的机制。