论文部分内容阅读
真核生物中,基因具有复杂的调控机制和转录模式。虽然细胞含有相同的遗传组分,但转录组的差异导致细胞具有不同的形态结构和功能特征。因此,解析转录组对研究基因的功能调控以及生物个体发育和疾病治疗都具有重要的意义。近年来,随着测序技术的发展,生物科学研究进入大数据时代。基因转录的研究不再集中于单一基因,而是逐渐过渡到了组学层面。本文中,我们发展了转录组大数据的生物信息学方法,从组学和系统进化的角度深入分析了真核生物基因的反式剪接事件和LBD(Lateral Organ Boundaries Domain)基因家族的演变进化过程。 高通量转录组测序(RNA-seq)的发展和应用为转录组学研究带来了新的突破和挑战。一方面,相比于传统技术,RNA-seq技术可以提供更加全面的转录组信息,因此被广泛应用于真核生物的转录组学研究中,尤其是没有参考基因组的非模式物种。另一方面,为了将RNA-seq数据转化为真实的生物学信息,RNA-seq技术依赖高效准确的生物信息学计算方法。论文首先综述了RNA-seq技术的生物信息学分析方法的研究进展,阐述和比较了已有分析方法的基本原理和应用。 研究论文的第一章围绕转录组大数据的计算生物学方法和分析展开。首先,我们对转录组从头拼装的生物信息学方法进行了系统性的研究。评估与优化了De Bruijn graph算法的拼装效率和k-mer等重要参数,完善了转录组从头拼装方法体系。然后,我们通过对昆虫纲五个目八个物种的转录组大数据的分析,深入研究了反式剪接(trans-splicing)在昆虫纲的进化模式,揭示了反式剪接在蛋白功能多样化和基因结构维持方面的重要作用。研究中共鉴定到1627个反式剪接事件,涉及2199个基因,占基因总数的1.58%。同源比对分析表明mod(mdg4)是昆虫纲中唯一保守的反式剪接事件,它存在于昆虫纲两个目多物种中,代表了反式剪接实现功能多样化的独特案例。因此,进化上反式剪接产生新功能蛋白的潜能并没有被昆虫物种广泛应用。同时,我们发现了146个非mod反式剪接产物与其他物种中正常基因高度相似。反式剪接维持断裂基因结构的功能可能是减少基因结构限制的通用机制,对基因和基因组的进化具有深刻的影响。 研究论文的第二章,我们在基因组水平上分析了植物特异的LBD转录因子家族在陆生植物中的进化。LBD基因起源于藻类植物,在陆生植物进化过程中,分化产生了多种功能。为了研究LBD祖先基因的完整进化路径和不同LBD基因谱系之间的分化模式,我们构建了一套完整的生物信息学鉴定流程,在11个代表性的陆生植物中鉴定到了431个LBD基因。通过对LBD基因的系统进化树分析,在早期陆生植物中共鉴定到7个祖先基因谱系。这些原始基因谱系经过了两轮的基因复制,分别形成了11个种子植物的祖先基因和18个被子植物的祖先基因。全基因组复制和离散复制是被子植物中LBD基因扩增的主要动力。同时,频繁的蛋白替换和表达模式的改变也促进了LBD基因的多样化。这些结果表明LBD基因在进化过程中通过复杂的基因复制过程增加了基因功能的多样化。