论文部分内容阅读
近年来测序技术的进展为基因组学研究开辟了前所未有的新方向,能以合理的成本迅速产生海量测序数据。在这几乎所有的物种都可以被测序的时代,科学家们面临着如何分析海量序列数据的新挑战。直接分析未组装的基因组数据可以大大提高这类短读序列的优势,并能够对没有完整参照基因组的生物进行比较基因组分析。 本研究的免参照分析方案最先源于解决如何分析大量热带森林树木短序列基因组数据的问题。由于考虑到大部分生态学研究里的热带生物都是没有参照基因组的非模式生物,本研究研发了直接分析高通量短序列数据的程序包。以通过数据中的kmer片段是否存在及其出现频次,划分成较小的数据分区来直接探讨目标基因组中的序列差异。独有的或共享的kmers将用于取读原始基因组数据,将划分了的基因组数据组装成局部的长序列组。因此,下一步的比较基因组分析只限于部分有比较价值的基因组数据。由于数据经过了筛选和简化,因此突破了高通量数据分析过程中经常面临的生物信息学分析瓶颈。 为了印证程序包的应用流程,本研究通过kmers分布比较了174个高低等植物的叶绿体全基因组。通过筛选单个基因组独有的(‘tip’ analysis)或多个基因组共享的(‘group’analysis)kmer片段,找出含有这些kmer片段的短读序列,并对这些数据进行组装后,以长序列探讨下一步的生物学问题。Kmer多样性分析显示,在比较了跨4倍基因组大小差异之下的叶绿体全基因组(由长度59kb的寄生兰花叶绿体全基因组到203kb的莱茵农藻叶绿体全基因组),叶绿体中的反向重复区域(Inverted Repeat region,IR)有大约18%的基因组被复制。共享kmers的和经组装后的de novo重叠群(contigs)的分布也因系谱中不同支流的植物家族而显示出差异,kmer片段分析可以清楚的把不同支流的植物分类。例如,寄生植物的叶绿体基因组表现出预期的整体进化加速,而半寄生植物的叶绿体基因组比全寄生植物的叶绿体基因组有较多的新基因序列,意味着基因组的收缩演化和其功能息息相关。此外,豆类植物的叶绿体基因组比其他植物支流分歧更快。基因组共享分析也在所有的种子植物中发现一小片段的rrn23保守基因,其中包括几个基因组中没有反向重复(IR)区域的物种,意味着这一段的保守基因有着非常关键的功能作用。 本研究的宗旨原为通过分析高通量全基因组鸟枪序列数据,对热带生物基因组多样性进行比较全面的研究。这方面的数据包括了18种热带林木的Illumina全基因组短序列数据,其中11种为壳斗科,6种为桑科和1种豆科作为外群种类。基于壳斗科和桑科并非近亲,所以不需同时分析,因此对壳斗科和桑科各自进行了单独的分析。共享kmers比例的分析显示壳斗科和桑科的繁殖生物学与其基因组多样化有很强的相关性。由于榕属植物与其传粉榕小峰的协同进化关系密切,其基因组经过了大幅度的演化,大于60%的序列为物种独有。在属的水平上,壳斗科中的柯属分析显示该属的物种只有小于40%的独有序列。比较基因组研究的数据分区组装研究结果提供了大量的信息和分子标记,其中有许多是与线粒体基因组相关的标记。在榕属和壳斗科的分析中,叶绿体基因组为“冰山一角”,大约只有1%或更少的原数据源自叶绿体基因组。但是,通过以已筛选了的单个基因组独有的短序列(‘tip’ reads)比对到柯属和榕属植物相近物种叶绿体基因组序列上后,成功的从独有的短序列的1%中获得了4377个柯属和5817榕属植物叶绿体基因组序列变异体(variants),显示出此程序包在分子标记开发有高效的潜能。 此程序包内有4个不同功能的程序,可用LINUX和苹果操作系统以命令行运行。程序包已上传到开源软件开发平台sourceforge,下载网址为: http://sourceforge.net/projects/referencefree/。