论文部分内容阅读
DNA测序技术的发展有着短暂且丰富的历史,在短短的40多年中有着众多飞跃式的发展。从Sanger的电泳法测序技术,以高成本、低通量、长读长、高精度等特点打开生物测序的大门;到NGS大规模平行测序,以低成本、高通量、短读长、高精度等特点成为生物测序的中流砥柱;再到目前正引领新潮流的单分子实时合成测序如PacBio和Nanopore,以高通量、超长读长、低精度等特点开创生物测序的新时代。DNA测序技术正在快速的发展并被广泛的应用。基因组文库是将通过某个物种的基因组DNA通过生物、化学或物理打断等不同的方式破碎成特定的大小,然后以载体为媒介导入到宿主中形成的集合,是进行分子克隆和基因组结构与功能特点研究的重要工具和材料。其中大片度基因组文库以其较大的外源DNA片段长度容纳能力而被广泛运用。
现如今将基因组文库与不同DNA测序技术结合产生的成对末端(paired-end)测序方法在生物测序领域也占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱能够有效解决复杂基因组的长重复序列和长散在序列的组装问题并且可以提供长跨度的连接信息。虽然Fosmid文库克隆插入片段比BAC文库克隆小,但是更容易获得克隆。因此,基于NGS测序方法的mate-pair技术结合Fosmid文库产生的双末端序列能有效探寻到各种具有调控能力的结构变异如插入、缺失和倒位等,这些结构变异通常大小不超过1kb,因此难以被传统的(300-500 bp)mate-pair方法检测到。不仅如此,利用Fosmid和BAC文库等长片段文库得到的成对末端序列因为其末端之间较长的间距可以跨过许多重复序列,不仅可以评估全基因组的组装质量、纠正错误组装;使散在的、难以辨别的顺序关系的Contigs之间得以正确排列,提升基因组的完整度;还能够检测存在于染色体内和不同染色体之间的大范围的结构变异区域。但是,一代测序技术和二代测序技术的读长都不能超过1kb,并且一代测序成本昂贵。因此基于这两种测序平台的paired-end技术得到的短的双末端在应用到复杂的基因组组装中会产生明显的缺陷,过短的双末端无法跨越重复序列导致错误的或不完整的拼装结果。因此,现在正需要长配对末端来填补这个缺陷。
本研究通过发明了一个新的利用大片段文库产生长paired-end末端的技术方法以适应新一代的测序潮流,它能有效的提高基因组从头组装的质量并且鉴别一些大到几十kb,小到几十bp的结构变异位点或者组装错误。此方法基于一个新的Fosmid载体——pHZAUFOS3,此载体有以下这些特点:1、新增的稀有I-SceI酶切位点不仅在检测插入片段方面具有单一条带的优越特性,还可以通过骨架上额外的两个I-SceI酶切位点在构建paired-end测序文库上机样品时去除载体序列的影响,增加有效数据的含量;2、将多克隆位点移至氯霉素抗性基因与复制子之间,此法可以提高后续paired-end测序文库中双末端的比列。本研究使用物理随机打断来破碎Fosmid克隆混合池DNA,然后将电泳筛选后的片段与氨苄抗性基因片段连接,转化后通过氯霉素和氨苄青霉素双抗生素筛选得到阳性双末端克隆的方法来构建长paired-end文库。本研究通过酵母Fosmid文库和谷子Fosmid文库构建长末端paired-end文库以PacBio测序平台测序来验证此方法的可行性。最终得到平均单端长度大于2kb的长跨度双末端。并将此数据应用于酵母和谷子的全基因组的组装,发现对组装结果有显著的提高。并且,通过将谷子的长paired-end数据与“豫谷一号”谷子的参考基因组进行比对,发现了5个大到几十kb和5个小到几十bp的结构变异位点。
现如今将基因组文库与不同DNA测序技术结合产生的成对末端(paired-end)测序方法在生物测序领域也占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱能够有效解决复杂基因组的长重复序列和长散在序列的组装问题并且可以提供长跨度的连接信息。虽然Fosmid文库克隆插入片段比BAC文库克隆小,但是更容易获得克隆。因此,基于NGS测序方法的mate-pair技术结合Fosmid文库产生的双末端序列能有效探寻到各种具有调控能力的结构变异如插入、缺失和倒位等,这些结构变异通常大小不超过1kb,因此难以被传统的(300-500 bp)mate-pair方法检测到。不仅如此,利用Fosmid和BAC文库等长片段文库得到的成对末端序列因为其末端之间较长的间距可以跨过许多重复序列,不仅可以评估全基因组的组装质量、纠正错误组装;使散在的、难以辨别的顺序关系的Contigs之间得以正确排列,提升基因组的完整度;还能够检测存在于染色体内和不同染色体之间的大范围的结构变异区域。但是,一代测序技术和二代测序技术的读长都不能超过1kb,并且一代测序成本昂贵。因此基于这两种测序平台的paired-end技术得到的短的双末端在应用到复杂的基因组组装中会产生明显的缺陷,过短的双末端无法跨越重复序列导致错误的或不完整的拼装结果。因此,现在正需要长配对末端来填补这个缺陷。
本研究通过发明了一个新的利用大片段文库产生长paired-end末端的技术方法以适应新一代的测序潮流,它能有效的提高基因组从头组装的质量并且鉴别一些大到几十kb,小到几十bp的结构变异位点或者组装错误。此方法基于一个新的Fosmid载体——pHZAUFOS3,此载体有以下这些特点:1、新增的稀有I-SceI酶切位点不仅在检测插入片段方面具有单一条带的优越特性,还可以通过骨架上额外的两个I-SceI酶切位点在构建paired-end测序文库上机样品时去除载体序列的影响,增加有效数据的含量;2、将多克隆位点移至氯霉素抗性基因与复制子之间,此法可以提高后续paired-end测序文库中双末端的比列。本研究使用物理随机打断来破碎Fosmid克隆混合池DNA,然后将电泳筛选后的片段与氨苄抗性基因片段连接,转化后通过氯霉素和氨苄青霉素双抗生素筛选得到阳性双末端克隆的方法来构建长paired-end文库。本研究通过酵母Fosmid文库和谷子Fosmid文库构建长末端paired-end文库以PacBio测序平台测序来验证此方法的可行性。最终得到平均单端长度大于2kb的长跨度双末端。并将此数据应用于酵母和谷子的全基因组的组装,发现对组装结果有显著的提高。并且,通过将谷子的长paired-end数据与“豫谷一号”谷子的参考基因组进行比对,发现了5个大到几十kb和5个小到几十bp的结构变异位点。