ReF-Free程序包:通过直接比较短序列基因组数据探讨生物多样性

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:csmeteor135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来测序技术的进展为基因组学研究开辟了前所未有的新方向,能以合理的成本迅速产生海量测序数据。在这几乎所有的物种都可以被测序的时代,科学家们面临着如何分析海量序列数据的新挑战。直接分析未组装的基因组数据可以大大提高这类短读序列的优势,并能够对没有完整参照基因组的生物进行比较基因组分析。  本研究的免参照分析方案最先源于解决如何分析大量热带森林树木短序列基因组数据的问题。由于考虑到大部分生态学研究里的热带生物都是没有参照基因组的非模式生物,本研究研发了直接分析高通量短序列数据的程序包。以通过数据中的kmer片段是否存在及其出现频次,划分成较小的数据分区来直接探讨目标基因组中的序列差异。独有的或共享的kmers将用于取读原始基因组数据,将划分了的基因组数据组装成局部的长序列组。因此,下一步的比较基因组分析只限于部分有比较价值的基因组数据。由于数据经过了筛选和简化,因此突破了高通量数据分析过程中经常面临的生物信息学分析瓶颈。  为了印证程序包的应用流程,本研究通过kmers分布比较了174个高低等植物的叶绿体全基因组。通过筛选单个基因组独有的(‘tip’ analysis)或多个基因组共享的(‘group’analysis)kmer片段,找出含有这些kmer片段的短读序列,并对这些数据进行组装后,以长序列探讨下一步的生物学问题。Kmer多样性分析显示,在比较了跨4倍基因组大小差异之下的叶绿体全基因组(由长度59kb的寄生兰花叶绿体全基因组到203kb的莱茵农藻叶绿体全基因组),叶绿体中的反向重复区域(Inverted Repeat region,IR)有大约18%的基因组被复制。共享kmers的和经组装后的de novo重叠群(contigs)的分布也因系谱中不同支流的植物家族而显示出差异,kmer片段分析可以清楚的把不同支流的植物分类。例如,寄生植物的叶绿体基因组表现出预期的整体进化加速,而半寄生植物的叶绿体基因组比全寄生植物的叶绿体基因组有较多的新基因序列,意味着基因组的收缩演化和其功能息息相关。此外,豆类植物的叶绿体基因组比其他植物支流分歧更快。基因组共享分析也在所有的种子植物中发现一小片段的rrn23保守基因,其中包括几个基因组中没有反向重复(IR)区域的物种,意味着这一段的保守基因有着非常关键的功能作用。  本研究的宗旨原为通过分析高通量全基因组鸟枪序列数据,对热带生物基因组多样性进行比较全面的研究。这方面的数据包括了18种热带林木的Illumina全基因组短序列数据,其中11种为壳斗科,6种为桑科和1种豆科作为外群种类。基于壳斗科和桑科并非近亲,所以不需同时分析,因此对壳斗科和桑科各自进行了单独的分析。共享kmers比例的分析显示壳斗科和桑科的繁殖生物学与其基因组多样化有很强的相关性。由于榕属植物与其传粉榕小峰的协同进化关系密切,其基因组经过了大幅度的演化,大于60%的序列为物种独有。在属的水平上,壳斗科中的柯属分析显示该属的物种只有小于40%的独有序列。比较基因组研究的数据分区组装研究结果提供了大量的信息和分子标记,其中有许多是与线粒体基因组相关的标记。在榕属和壳斗科的分析中,叶绿体基因组为“冰山一角”,大约只有1%或更少的原数据源自叶绿体基因组。但是,通过以已筛选了的单个基因组独有的短序列(‘tip’ reads)比对到柯属和榕属植物相近物种叶绿体基因组序列上后,成功的从独有的短序列的1%中获得了4377个柯属和5817榕属植物叶绿体基因组序列变异体(variants),显示出此程序包在分子标记开发有高效的潜能。  此程序包内有4个不同功能的程序,可用LINUX和苹果操作系统以命令行运行。程序包已上传到开源软件开发平台sourceforge,下载网址为:  http://sourceforge.net/projects/referencefree/。
其他文献
近年来,互联网技术、信息通信技术快速发展,推动互联网与金融加速融合,催生互联网金融这一新的金融业态。互联网金融有效降低了交易成本,减少了信息不对称,拓展了交易可能性
随着现代工业的发展,氢气作为一种重要的工业原料在电力、航天、化工等各部门得到了广泛的应用。但是氢气的不确定泄漏可能危害生命或对工业设备造成极大的破坏,因此,如何对
人的体细胞已经被证明可以被特定的转录因子重编程回到发育最初的阶段,由此产生的人的诱导多能干细胞(hiPSCs)可以在体外分化成大量的多种功能细胞,因此,hiPSCs为研究人类遗传性
随着计算机网络技术的飞速发展,信息技术的安全问题越来越受到人们的重视,针对密码芯片的攻击以及防御的研究已经成为当前信息安全的热点研究方向,尤其以功耗攻击为主要手段
作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网
多孔硅具有独特的微观结构、大的体积表面比、特殊的半导体能带结构、良好的化学稳定性使其在SOI技术、微传感器技术等众多方面得到极大重视。近年来,随着MEMS技术的迅猛发展
目的:采用慢性不可预知性应激(chronicunpredictablestress,CUS)大鼠抑郁模型,观察电针与低于有效剂量的西酞普兰(5-羟色胺再摄取抑制剂)的联合治疗效果,并探讨了脑源性神经营养
在有线或无线通信系统中,码间干扰(IIS)是信道非理想特性的主要因素,若不对其进行抑制,将在接收端产生很高的误码率。均衡器作为主要的ISI补偿手段,在现代高性能通信设备中,已成为必
研究了一类具波动算子的非线性Schr(o)dinger方程的数值计算问题.给出了该方程的两个守恒律,构造了求解该方程近似解的一种守恒差分格式,使该差分格式的精度在时间和空间上均
随着毫米波通信、精确制导、电子对抗、微波/毫米波生物医学以及电磁辐射防护等技术的应用和发展,实现毫米波段低损耗电介质材料的复介电常数测量具有重要的理论意义和工程价