基于PacBio的高通量Fosmid文库克隆长配对末端测序技术的开发

来源 :华中农业大学 | 被引量 : 1次 | 上传用户:chrisl0708
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA测序技术的发展有着短暂且丰富的历史,在短短的40多年中有着众多飞跃式的发展。从Sanger的电泳法测序技术,以高成本、低通量、长读长、高精度等特点打开生物测序的大门;到NGS大规模平行测序,以低成本、高通量、短读长、高精度等特点成为生物测序的中流砥柱;再到目前正引领新潮流的单分子实时合成测序如PacBio和Nanopore,以高通量、超长读长、低精度等特点开创生物测序的新时代。DNA测序技术正在快速的发展并被广泛的应用。基因组文库是将通过某个物种的基因组DNA通过生物、化学或物理打断等不同的方式破碎成特定的大小,然后以载体为媒介导入到宿主中形成的集合,是进行分子克隆和基因组结构与功能特点研究的重要工具和材料。其中大片度基因组文库以其较大的外源DNA片段长度容纳能力而被广泛运用。
  现如今将基因组文库与不同DNA测序技术结合产生的成对末端(paired-end)测序方法在生物测序领域也占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱能够有效解决复杂基因组的长重复序列和长散在序列的组装问题并且可以提供长跨度的连接信息。虽然Fosmid文库克隆插入片段比BAC文库克隆小,但是更容易获得克隆。因此,基于NGS测序方法的mate-pair技术结合Fosmid文库产生的双末端序列能有效探寻到各种具有调控能力的结构变异如插入、缺失和倒位等,这些结构变异通常大小不超过1kb,因此难以被传统的(300-500 bp)mate-pair方法检测到。不仅如此,利用Fosmid和BAC文库等长片段文库得到的成对末端序列因为其末端之间较长的间距可以跨过许多重复序列,不仅可以评估全基因组的组装质量、纠正错误组装;使散在的、难以辨别的顺序关系的Contigs之间得以正确排列,提升基因组的完整度;还能够检测存在于染色体内和不同染色体之间的大范围的结构变异区域。但是,一代测序技术和二代测序技术的读长都不能超过1kb,并且一代测序成本昂贵。因此基于这两种测序平台的paired-end技术得到的短的双末端在应用到复杂的基因组组装中会产生明显的缺陷,过短的双末端无法跨越重复序列导致错误的或不完整的拼装结果。因此,现在正需要长配对末端来填补这个缺陷。
  本研究通过发明了一个新的利用大片段文库产生长paired-end末端的技术方法以适应新一代的测序潮流,它能有效的提高基因组从头组装的质量并且鉴别一些大到几十kb,小到几十bp的结构变异位点或者组装错误。此方法基于一个新的Fosmid载体——pHZAUFOS3,此载体有以下这些特点:1、新增的稀有I-SceI酶切位点不仅在检测插入片段方面具有单一条带的优越特性,还可以通过骨架上额外的两个I-SceI酶切位点在构建paired-end测序文库上机样品时去除载体序列的影响,增加有效数据的含量;2、将多克隆位点移至氯霉素抗性基因与复制子之间,此法可以提高后续paired-end测序文库中双末端的比列。本研究使用物理随机打断来破碎Fosmid克隆混合池DNA,然后将电泳筛选后的片段与氨苄抗性基因片段连接,转化后通过氯霉素和氨苄青霉素双抗生素筛选得到阳性双末端克隆的方法来构建长paired-end文库。本研究通过酵母Fosmid文库和谷子Fosmid文库构建长末端paired-end文库以PacBio测序平台测序来验证此方法的可行性。最终得到平均单端长度大于2kb的长跨度双末端。并将此数据应用于酵母和谷子的全基因组的组装,发现对组装结果有显著的提高。并且,通过将谷子的长paired-end数据与“豫谷一号”谷子的参考基因组进行比对,发现了5个大到几十kb和5个小到几十bp的结构变异位点。
其他文献
WNT/β-catenin信号通路在胚胎发育,组织稳态以及肿瘤发生发面起着重要的作用。研究表明,大部分结肠癌的发生是由于其WNT信号通路激活不正常导致的。WNT信号的激活主要是导致细胞内β-catenin的累积并进入到细胞核促进相关基因的表达。在实体瘤中,肿瘤的快速生长消耗大量的氧气而导致肿瘤组织低氧。肿瘤中低氧通常会引起多种细胞适应性反应信号的激活,包括内质网应激(Endoplasmic Ret
学位
心力衰竭(heart failure,HF),以下简称心衰,发生于心脏疾病的终末阶段,具有极高的发病率和死亡率。心肌纤维化是心衰的重要原因,然而临床上治疗心肌纤维化的效果却十分有限。心肌纤维化是一种瘢痕形成的过程,其主要特点是成纤维细胞的异常增殖和细胞外基质(extracellular matrix, ECM)蛋白的过度沉积,从而导致心脏结构和功能的异常。ECM中积聚的胶原蛋白会导致心脏左心室的顺
最近的研究揭示了神经系统在衰老过程中具有日益重要的作用。神经系统可以感受外界刺激,通过分泌神经递质和神经肽来调节衰老。线虫神经系统可以通过冷和温敏感神经元感知冷暖环境温度,然后分别向肠道发出延长和缩短寿命的信号。研究发现温度控制的寿命的延长不是消极的化学反应减缓的过程,而是一个复杂的由感受温度的相关膜受体及下游各种信号蛋白调控网络参与的调控过程。线虫肠道细胞内膜受体TRPA-1(Transiten
学位
生产力的维持是人工林可持续经营的重要保障,而养分对于生产力的维持至关重要。随着林龄的增加,林木生长发育特征改变,其生长速率、养分需求、养分吸收、养分利用策略及养分循环规律随之发生变化,导致土壤特性和养分状况也发生改变。因此,研究人工林养分供应与林木生长关系随林龄的动态变化,对于人工林的可持续经营具有重要的指导意义。  磷(P)是植物生长发育必需的重要元素之一,其参与多种生理生化和组织形成过程。但我
增龄导致的女性生殖能力下降以及胎儿染色体异常的增加是目前困扰女性生殖健康的最大挑战。女性生育力下降与卵巢储备及卵细胞质量的下降密切相关。在女婴刚出生时,其卵巢中卵细胞数量接近100万枚左右,但是在女性一生中,仅仅只有约500枚卵细胞排出,这只占卵巢中卵细胞总数的0.1%,而剩下的约99.9%卵细胞是白白损耗掉,并且这种损耗的机制尚不明确。卵泡池损耗从女婴约1-3岁开始直到女性约51-52岁卵巢储备
学位
卵巢癌目前是全球妇科疾病中最致命的癌症,也是女性癌症死亡的原因之一,5年生存率在15%到25%之间。目前的治疗方案主要包括肿瘤切除术和化疗。化疗药物首选铂类药物,然而卵巢癌患者极易对铂类药物产生耐药性。因此,研究卵巢癌耐药机制,对改善卵巢癌的治疗现状具有重要的意义。我们之前的研究表明MCT4在卵巢癌组织高表达,参与卵巢癌的能量代谢,能够将卵巢癌糖酵解产生的乳酸排出细胞,维持癌细胞的恶性表型。有研究
学位
黄土高原的土壤水储量和植被恢复之间相互影响,其状态变化是生态学、土壤学和地理学关注的热点,也是该区生态文明建设的重要基础性工作。本研究利用黄土高原土壤水储量和降雨量之间的关系,建立归一化土壤水分指数(NSWI, Normalized Soil Water Index),通过土壤水分指数的动态变化和对应降雨量的年变化,推断2001-2016年黄土高原土壤的逐年干湿趋势;结合地表水量平衡近似方程和植被
CRISPR-Cas是广泛存在于古菌和细菌中的获得性免疫体系,由小RNA介导Cas蛋白保护它们的宿主细胞免受移动遗传因子(mobile genetic element, MGE)的入侵。这一原核生物免疫系统可分为两大类,六个不同的类型。研究表明,I,II,V型CRISPR-Cas系统编码小RNA介导的靶标DNA干涉活性,VI型系统编码小RNA介导的靶标RNA和靶标RNA激活的RNA干涉活性,然而I
基因毒性抗生素阿嗪霉素B(azinomycin B)是从链霉菌(Streptomyces sahachiroi)中分离到的杂合聚酮-非核糖体多肽类抗生素,含有一个高活性的环氧基团和一个罕见的氮杂双元环,可亲核攻击5′-d(PuNPy)-3′序列中嘌呤碱基的N7位形成DNA链间交联,使得该抗生素具有强烈的细胞毒性和广谱的抗癌细胞活性,具有开发成为新型肿瘤化学治疗剂的潜力。阿嗪霉素B是一种强烈的DNA
学位
研究背景与目的:甲型流感病毒依据其致病性强弱分为高致病性或低致病性,以往爆发的H5N1,H7N9和H7N7高致病性甲流疫情,死亡率高达30%以上。而低致病力甲流病毒pdm09H1N1爆发,感染患者大部分可以自行痊愈,死亡率低于0.05%。高致病性甲流的致病机制一直是研究的热点,大量研究发现免疫系统对病毒感染的过度反应,是甲型流感病毒的主要致病机制。高致病性甲型流感病毒可以引发“细胞因子风暴”,宿主