论文部分内容阅读
微小RNA,microRNA(miRNA),是一类长度约为22个核苷酸的小分子非编码RNA,广泛存在于真核生物中,通过和靶基因mRNA碱基配对引导沉默复合体(RNA-induced silencing complex,RISC)降解mRNA或阻碍其翻译,在转录后水平调控靶基因的表达,具有重要的生物学功能,参与细胞发育、增殖、分化、凋亡等一系列的重要生物学过程,尤其是一些miRNAs具有癌基因和抑癌基因的作用,在肿瘤的发生和发展中扮演着重要的角色。高通量测序技术具有测序速度快、成本低、通量高等优点,广泛应用于miRNA研究。本论文基于高通量测序技术所产生的海量小RNA数据,结合miRNA的生物学特点,发展了一套实用的、系统的miRNA分析方法,包括引入在研究样本中表达比较恒定的miRNA作为内参照恒定miRNA表达谱,基于miRNA基因簇(miRNA genecluster)和miRNA基因家族(miRNA gene family)进行表达谱分析,以及有效的校正常见的多重匹配问题,充分利用测序资源追踪pre-miRNA加工机制等。此外,结合高通量测序数据及miRNA的生物学功能开展数据挖掘研究,充分利用测序数据的高灵敏度及高通量特点,针对多重的miRNA变体(miRNA variants,isomiRs)及3’端附加碱基事件,结合人孕妇不同程度先兆子痫患者胎盘组织的miRNA测序数据,以发现isomiR表达模式及3’端修饰事件在人类疾病中的可能作用,同时也系统分析isomiR分布谱及3’端附加碱基现象在miRNA gene cluster和family中的分布特点,从而丰富miRNA的研究。最后,针对miRNA高通量测序数据分析中的一些现象,本论文也开展了跨物种进化分析,试图从进化的角度揭示其内在的联系,以发现miRNA进化趋势及潜在的进化暗示,为进一步完善miRNA数据分析提供理论基础。主要研究内容和成果如下:
1.基于miRNA测序数据分析策略研究
高通量测序技术在比较不同发育阶段,不同组织及不同条件下的miRNA表达谱方面得到了广泛的应用,尤其是针对人类不同疾病状态相关的miRNA研究,一度成为该研究领域的热点。如何通过测序数据还原体内的相对表达水平是十分重要的,在一定程度上能够有效的指导后续实验的开展。研究表明一些miRNAs在研究样本中的表达水平相对来说是较为稳定的,这些表达恒定的miRNAs可以作为内源参照引入数据分析,即可达到最终数据深度分析中半定量的效果,以更有效的筛选miRNA差异表达谱。同时,尽管miRNlA表达谱的比较分析一度成为研究热点,但通常情况下并未结合miRNA在基因组上的分布位置及功能相近的miRNA基因家族进行系统分析。比如一些miRNAs成簇的分布在基因组上,一些miRNAs因为序列相似而组成功能相近的miRNA基因家族,以及这些miRNAs之间可能经历了复杂的进化历程等,都可以成为进一步深度分析miRNA表达的重要指标。因此,我们引入了基于miRNA gene cluster及序列相近的miRNA gene family作为表达标签,结合在基因组中的分布特点以及进化信息,全面分析不同类别的miRNAs在研究对象中的表达差异,以更具体地研究一类miRNAs在调控生物学过程中的作用机制。
由于miRNA长度仅为约22 nt,且由于pre-miRNA的不精确加工过程所产生的具有多样的5’和3’端及长度分布的isomiRs,短的测序片段极易匹配上不同的参考序列,即出现多重匹配(multiple mapping)或者交叉匹配(cross-mapping)问题,同时潜在的测序错误及在数据分析中允许的碱基错配,在一定程度上增加了多重匹配的可能性和复杂性,如何有效的处理并校正频繁的多重匹配问题显得异常重要。本论文基于SOLiD双碱基编码技术,充分结合miRNA的生物学特点,在颜色水平上结合错配的分布谱、错配位置的质量值、候选位置的表达谱及候选位置侧翼序列的表达谱等特征,为进一步有效校正多重匹配问题提供理论依据。
根据高通量测序技术的高灵敏度及所产生的海量数据等特点,全面分析小RNA测序数据,尤其是结合较短的测序片段(如小于18 nt),充分利用这些被忽视的小RNA资源,追踪pre-miRNA的代谢产物,并根据每个miRNA位点所产生的具有不同长度,5’和3’端及不同表达丰度的小RNAs,分别基于它们的5’和3’端分歧开展特殊RNA的相对表达水平分析,以了解pre-miRNA加工机制,从而进一步丰富miRNA研究。
2.miRNA/isomiRs分布谱及表达模式分析
基于新一代测序技术的高通量及高灵敏度,即使表达丰度较低的miRNAs,也可能被检测到,并由此发现多重的miRNA变体,即isomiRs。研究发现,尽管大多miRNAs(尤其是表达丰富的miRNAs)都可以检测到多种多样的isomiRs,但是isomiR的种类和miRNA的表达水平之间并没有严格的相关性。通常,每个miRNA位点可以产生1-3种丰富表达的isomiRs,而其它种类的isomiRs则具有较低的表达水平。这些丰富表达的isomiRs具有相同的5’端及种子序列,仅仅在序列的3’端具有碱基移动的现象,此结果表明了Drosha和Dicer酶在pre-miRNA上的优势加工位点集中在连续的1-3个碱基,在miRNA5’端的加工位点则集中在一个特定的位置。不同的miRNAs具有不同种类的isomiRs和多样的表达模式,且该现象并不是随机的,通常在不同物种中及不同组织中是稳定的。此外,不同动物物种中miRNAs序列的多样性,与多重isomiRs现象非常相似,且很多其它物种的miRNAs序列均可以作为丰富表达的人isomiRs序列被检测到,表明不同物种可能选择具有不同5’端或3’端以及长度分布的miRNA序列以适应复杂的细胞内环境及物种进化所需。
miRNA的3’端附加现象广泛存在于动物和植物的miRNA中,比较常见的是3’端附加碱基为腺嘌呤。通过对孕妇患不同程度先兆子痫的胎盘组织样本进行分析,发现3’端附加碱基现象非常普遍,尤其是附加的腺嘌呤,但是这些修饰的isomiRs仅表现出了较低水平的表达百分比(小于15%)。尽管某些修饰的isomiR序列也具有较高的表达水平,但是在其相应的miRNA位点却不是优势表达的isomiR。基于最丰富表达isomiR和所有的isomiRs分别统计差异表达miRNA谱,发现具有一致的差异表达miRNAs。此外,我们也从isomiR水平上筛选了差异表达的修饰isomiRs。这些差异表达的miRNAs或者修饰isomiRs,通常出现在正常对照和患有先兆子痫样本中,或者不同程度的先兆子痫样本中。有趣的是,这些表达差异的修饰isomiRs具有与其参考miRNAs相同的5’端及种子序列,根据实验验证过的靶标基因信息,通过功能富集分析发现这些miRNAs参与了特定的生物学过程。该研究表明多重的isomiRs,尤其是具有3’端附加碱基的isomiRs并不是pre-miRNA加工过程中的一个随机事件,多样性的isomiRs及其表达模式具有一定的功能暗示,可能参与了人类疾病的发生发展过程。
基于miRNA gene cluster/family的表达分析表明,miRNA成员之间的表达水平可能具有显著的差异,尤其是在miRNA cluster中。尽管成簇分布的miRNAs可能共享一套调节序列而共转录,不一致的表达模式说明了miRNA的动态调控过程。但在同源miRNAs之间,很多miRNAs来自于相应pre-miRNAs的相同的臂,甚至具有相同的长度分布,这表明相似的miRNA成熟机制,也暗示着这些miRNAs之间的功能相关性。IsomiR分布谱及3’端附加事件在一些miRNAcluster/family中表现了一致的分布模式,表明这些miRNAs之间具有相似的pre-miRNA加工过程及3’端附加机制,这可能源自于进化过程中的保守性加工和修饰过程,而该过程贡献于多个miRNAs水平上的共调控生物学过程,从而暗示了不同miRNAs之间的功能和进化联系。
3.miRNA进化分析
多重匹配现象在分析miRNA高通量测序数据中广泛存在。为了进一步了解这一现象,我们系统分析了人己知的miRNAs和pre-miRNAs,研究发现miRNAs可以同时精确地匹配上人其它的非编码RNAs(ncRNAs,包括rRNAs,tRNAs,snoRNAs,snRNAs等),不同的pre-miRNAs,包括pre-miRNAs的反向互补链。结果表明,其它ncRNAs及pre-miRNAs的反义链的降解或者加工过程所产生的片段也会贡献于miRNA的富集,甚至于一些miRNAs由于错误的注释是伪“miRNAs”。与典型miRNA长度相比(通常为~22 nt),这些能够精确匹配上其它ncRNAs的miRNAs,通常具有较短的长度分布(17-19 nt),较低的前体预测值,甚至被鉴定为假的pre-miRNAs结构。显著地,4.9%的人miRNAs能够同时匹配上pre-miRNAs的反义链,表明同一个基因组位置的两个链都有可能产生成熟的miRNAs,同时也暗示了一些潜在的miRNA前体序列。所有结果表明,多重匹配现象在miRNA研究中远比我们想象的复杂,pre-miRNAs和其它ncRNAs之间的序列相似性以及特定pre-miRNAs的茎环结构,都提供了一定的进化暗示,将进一步丰富miRNA进化及生源论。
基于高通量测序技术的高灵敏性,我们能够发现一些表达量非常丰富的miRNA*(miRNA star,miRNA passenger strand)。根据典型的miRNA生源论,miRNA*是无功能的且被降解的。研究表明,miRNA/miRNA*比率可能会在不同的发育阶段有所改变,而这个改变可能预示着miRNA*在特殊的发展阶段中起着重要的作用。根据miRNA在跨物种分析中非常保守的特性,miRNA*的命运,或者作为非功能性的passenger strand被降解,或者作为潜在的功能性miRNA而发挥生物学功能,可能在复杂的跨物种进化以及物种内进化过程中有所体现。因此,本论文开展了基于miRNA家族及单独的miRNA基因在脊椎动物中的进化分析,结果表明miRNA*通常不像它们的miRNAs那么保守,具有多样的分歧模式。miRNA*的序列分歧主要来自于不同的物种,同源的miRNA基因以及多重拷贝的miRNA前体序列之间的分歧。但有些miRNA*序列也是十分进化保守的,尤其是它们的5’端及种子序列。对于那些同时能够产生成熟的miR-#-5p和miR-#-3p的miRNA前体来说,它们的5’和3’arms在不同物种中都是十分保守的。综上,miRNA*的命运在进化历程中是有所暗示的,十分保守的miRNA*序列可能是潜在的调控分子而贡献于复杂的调控网络。
此外,在漫长的miRNA进化历程中,每种物种对miRNA种类的选择以及序列及长度的选择也可能和该物种的特点紧密相关。通过系统分析miR-17及miR-124这两个典型的miRNA家族,表明miRNA可以作为一个非常特殊的进化标签来研究不同物种漫长的进化历史,以及在物种内所引入的复杂进化历程。尽管miRNA在不同物种中是保守的,但是不同miRNAs之间具有不同的进化模式,miR-17家族具有较为复杂的进化历史,由5个同源miRNAs组成,主要分布在脊椎动物中,而miR-124家族是非常保守的,具有广泛的分布谱,且在miRNA序列方面异常保守。即使在相同的物种中,不同的miRNAs之间也具有不同的变异位点,单倍型多样性,单倍型分布和进化模式。miRNA种群可以作为一个特殊的进化标签来发现miRNA的进化历史及分布格局,以丰富miRNA研究思路。