论文部分内容阅读
线粒体宏基因组学(Mitochondrial metagenomics 或 mito-metagenomics,MMG)是一种对混合样本DNA进行宏基因组浅层测序,并利用生物信息学分析提取线粒体基因组序列的方法。该技术能快速、高效且经济地获取大量物种的线粒体基因组数据,减少PCR偏倚带来的误差,为生物多样性和系统发育等研究提供了新的途径。迄今为止大多数线粒体宏基因组学研究仅限于概念性验证,尚需规范实验设计并对关键参数进行严格评估和优化。传统利用线粒体宏基因组数据组装线粒体序列需要大量计算资源。本研究兼顾准确性、计算资源和时长等需求,对动物线粒体宏基因组组装策略进行了优化,并通过多个模拟和实例数据的验证,评估了该分析流程的效率和准确性。本文共分为四个章节。第一章文献综述部分介绍了从条形码技术、宏条形码技术到线粒体宏基因组技术的提出和发展,总结了线粒体基因组测序多种策略的优缺点,以及已有线粒体宏基因组的组装流程、挑战和应用,并提出本文的研究目标和意义。第二章优化了线粒体宏基因组的组装策略,即根据已发表的线粒体基因组序列过滤原始测序数据后,进行物种特异性组装。传统blastn算法较为耗时,且不适用于遗传分化差异较大序列之间的比对和筛选,因此,本章节使用NextGenMap替换blastn,根据线粒体基因组参考序列快速比对混样全基因组测序数据,能同时兼顾比对遗传分化远的序列,并结合SAMtools提取候选线粒体测序序列,将原始数据量降低一个量级(10%左右)用于后续组装;通过NOVOPlasty的探针序列扩展(seed-extend)算法对混合样本中多个物种进行高效、快速的线粒体基因组组装,并对可能产生的错误序列及嵌合体进行有效的检测和过滤,从而得到正确的组装结果。本章节测试了三个线粒体基因组的模拟混样数据集,所含物种亲缘程度由远至近(DSA,后生动物;DSB,蜜蜂总科;DSC,蚊科),其COI遗传距离分别为0.090-0.377,0.036-0.289和0.015-0.166。三个数据集的组装线粒体序列平均长度(bp)分别为14361.2±3182.7(3876-17633)、8510.2±5241.2(630-17211)和 15582.4±445.5(15377-16673)。与线粒体基因组参考序列相比,组装长度分别达到了参考序列的95.1±20.1%、58.2±34.2%和100±0.1%。每个数据集的过滤和组装过程在普通台式机上(8核/16线程,32G内存)耗时小于24小时。除了亲缘关系极近的个别物种(COI遗传距离1.5%),大部分物种组装均能保证较高的完整性和准确性。最后,本研究在0.1-1000X不同测序深度下评估了物种检测灵敏度及丰度预测的准确性,并推断出在有参考线粒体基因组数据库的情况下,单个混种样品线粒体宏基因组测序量仅1 Gbp即可充分获取多样性测量的基本指标。综上,本章节优化了线粒体宏基因组的组装策略,并结合模拟数据对其正确性和物种性检测能力进行了评估。第三章测试了线粒体宏基因组新型组装策略在具体实例中的表现。本章节通过第二章提出的组装策略测试了三个系列(DB,等(节)跳科;33mix,泛水生动物;DBTR,泛土壤动物)共113(30、33和50)个物种的混合样品。三个数据集的组装线粒体序列平均长度(bp)分别为 14078.0±3758.4(284-16812)、13532.0±4380.6(254-18095)和15585.8±2500.6(6000-22026)。大多线粒体基因组包含完整的13个蛋白质编码基因(Protein Coding Gene,PCG),22 个转运核糖核酸(Transfer Ribonucleic Acid,tRNA)及2个核糖体核糖核酸(Ribosomal Ribonucleic Acid,rRNA)。因此,注释后所含遗传信息最重要的蛋白质编码基因数量(条)达到了 12.89±0.31(12-13)、12.43±1.50(8-13)和12.39±1.72(5-13),进一步验证了组装结果的完整性。组装序列与每个物种的参考条形码序列(COI 658bp的探针序列)的识别度分别为(99.21±0.91)%、(99.21±0.91)%及(99.46±3.25)%,证明了组装线粒体基因组的准确性。组装过程中,仅DB和DBTR三个数据集分别有3和2个物种产生了与其他近缘物种部分片段重合的序列,均能在嵌合体检测与过滤后恢复为正确序列。本研究同时汇总了每条序列的碱基(A、T、C、G)含量和G-C偏倚(G-C skew)等序列基本信息,并展示了部分物种线粒体基因组的结构示意图。最后,对比线粒体宏基因组组装策略在第二章及本章节所有数据完整性和准确性的结果差异性,未发现显著差异;比较了不同亲缘关系数据集中的嵌合体情况,建议在实际样品中物种混合时应尽量保证不同物种COI遗传距离大于10%,从而避免近缘物种可能带来的误差。综上,本章节通过实例数据集验证了线粒体宏基因组组装策略的适用性,为将来“超级条形码”(线粒体基因组)数据库的构建提供了技术基础。第四章为总结与展望。本章节总结了本文的主要研究成果,对MMG技术后续批量注释功能的开发、线粒体基因组数据库的构建、物种检测及多丰度评估等方面应用进行了展望。