动物线粒体宏基因组组装策略的优化

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:coolfish_dj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线粒体宏基因组学(Mitochondrial metagenomics 或 mito-metagenomics,MMG)是一种对混合样本DNA进行宏基因组浅层测序,并利用生物信息学分析提取线粒体基因组序列的方法。该技术能快速、高效且经济地获取大量物种的线粒体基因组数据,减少PCR偏倚带来的误差,为生物多样性和系统发育等研究提供了新的途径。迄今为止大多数线粒体宏基因组学研究仅限于概念性验证,尚需规范实验设计并对关键参数进行严格评估和优化。传统利用线粒体宏基因组数据组装线粒体序列需要大量计算资源。本研究兼顾准确性、计算资源和时长等需求,对动物线粒体宏基因组组装策略进行了优化,并通过多个模拟和实例数据的验证,评估了该分析流程的效率和准确性。本文共分为四个章节。第一章文献综述部分介绍了从条形码技术、宏条形码技术到线粒体宏基因组技术的提出和发展,总结了线粒体基因组测序多种策略的优缺点,以及已有线粒体宏基因组的组装流程、挑战和应用,并提出本文的研究目标和意义。第二章优化了线粒体宏基因组的组装策略,即根据已发表的线粒体基因组序列过滤原始测序数据后,进行物种特异性组装。传统blastn算法较为耗时,且不适用于遗传分化差异较大序列之间的比对和筛选,因此,本章节使用NextGenMap替换blastn,根据线粒体基因组参考序列快速比对混样全基因组测序数据,能同时兼顾比对遗传分化远的序列,并结合SAMtools提取候选线粒体测序序列,将原始数据量降低一个量级(10%左右)用于后续组装;通过NOVOPlasty的探针序列扩展(seed-extend)算法对混合样本中多个物种进行高效、快速的线粒体基因组组装,并对可能产生的错误序列及嵌合体进行有效的检测和过滤,从而得到正确的组装结果。本章节测试了三个线粒体基因组的模拟混样数据集,所含物种亲缘程度由远至近(DSA,后生动物;DSB,蜜蜂总科;DSC,蚊科),其COI遗传距离分别为0.090-0.377,0.036-0.289和0.015-0.166。三个数据集的组装线粒体序列平均长度(bp)分别为14361.2±3182.7(3876-17633)、8510.2±5241.2(630-17211)和 15582.4±445.5(15377-16673)。与线粒体基因组参考序列相比,组装长度分别达到了参考序列的95.1±20.1%、58.2±34.2%和100±0.1%。每个数据集的过滤和组装过程在普通台式机上(8核/16线程,32G内存)耗时小于24小时。除了亲缘关系极近的个别物种(COI遗传距离1.5%),大部分物种组装均能保证较高的完整性和准确性。最后,本研究在0.1-1000X不同测序深度下评估了物种检测灵敏度及丰度预测的准确性,并推断出在有参考线粒体基因组数据库的情况下,单个混种样品线粒体宏基因组测序量仅1 Gbp即可充分获取多样性测量的基本指标。综上,本章节优化了线粒体宏基因组的组装策略,并结合模拟数据对其正确性和物种性检测能力进行了评估。第三章测试了线粒体宏基因组新型组装策略在具体实例中的表现。本章节通过第二章提出的组装策略测试了三个系列(DB,等(节)跳科;33mix,泛水生动物;DBTR,泛土壤动物)共113(30、33和50)个物种的混合样品。三个数据集的组装线粒体序列平均长度(bp)分别为 14078.0±3758.4(284-16812)、13532.0±4380.6(254-18095)和15585.8±2500.6(6000-22026)。大多线粒体基因组包含完整的13个蛋白质编码基因(Protein Coding Gene,PCG),22 个转运核糖核酸(Transfer Ribonucleic Acid,tRNA)及2个核糖体核糖核酸(Ribosomal Ribonucleic Acid,rRNA)。因此,注释后所含遗传信息最重要的蛋白质编码基因数量(条)达到了 12.89±0.31(12-13)、12.43±1.50(8-13)和12.39±1.72(5-13),进一步验证了组装结果的完整性。组装序列与每个物种的参考条形码序列(COI 658bp的探针序列)的识别度分别为(99.21±0.91)%、(99.21±0.91)%及(99.46±3.25)%,证明了组装线粒体基因组的准确性。组装过程中,仅DB和DBTR三个数据集分别有3和2个物种产生了与其他近缘物种部分片段重合的序列,均能在嵌合体检测与过滤后恢复为正确序列。本研究同时汇总了每条序列的碱基(A、T、C、G)含量和G-C偏倚(G-C skew)等序列基本信息,并展示了部分物种线粒体基因组的结构示意图。最后,对比线粒体宏基因组组装策略在第二章及本章节所有数据完整性和准确性的结果差异性,未发现显著差异;比较了不同亲缘关系数据集中的嵌合体情况,建议在实际样品中物种混合时应尽量保证不同物种COI遗传距离大于10%,从而避免近缘物种可能带来的误差。综上,本章节通过实例数据集验证了线粒体宏基因组组装策略的适用性,为将来“超级条形码”(线粒体基因组)数据库的构建提供了技术基础。第四章为总结与展望。本章节总结了本文的主要研究成果,对MMG技术后续批量注释功能的开发、线粒体基因组数据库的构建、物种检测及多丰度评估等方面应用进行了展望。
其他文献
穆藕初(1876-1943)是中国近代重要的棉作专家、棉纺织企业家和农政工作者,倾其毕生心力从事棉业改良事业。不同于纯粹的农学家或企业家,穆藕初凭借多重身份在近代植棉业改良中扮演了重要角色,展现出其身份、理念和工作的独特性,这正是本文研究的重点所在。穆藕初倾力从事植棉业改良事业与近代中国棉业发展的历史背景有关。十九世纪中期,在洋纱、洋布的大量输入冲击了中国原有的棉货市场,中国传统手工棉纺织业逐渐向
随着近年来全球气候变化和城市化进程,城市气候条件正日益发生变化,相应的城市植物物候期的变化愈发的明显。目前对于城市植物物候期变化的研究相对集中于乔灌木,鲜有对于草本植物的物候期观察研究,加之目前城市自生草本植被是近年来城市生态学研究领域的热点话题,对于城市自生植物群落物候期的特点研究显得尤为重要,并且在植物生态实践领域具有较高的研究价值和应用潜力。本研究以南京市城东地区(南京农业大学和南京理工大学
以稗(Echinochloa crus-galli)为代表的稗属杂草(Echinochloa spp.),是水稻田发生危害最为严重的杂草,严重影响水稻的产量和质量。五氟磺草胺是近几年防除稻田稗属杂草最重要的除草剂,因其作用靶标单一且连续多年使用,导致稗对五氟磺草胺产生了比较严重的抗药性。本研究防除对象抗五氟磺草胺稗AXXZ-2种群其ALS基因存在Ala-205-Val氨基酸位点突变,且AXXZ-2
致病疫霉(Phytophthora infestans)引起的晚疫病是马铃薯和番茄上的毁灭性病害之一,严重威胁马铃薯和番茄的品质及产量。1845-1850年由致病疫霉侵染引发的马铃薯晚疫病大流行曾导致震惊世界的“爱尔兰大饥馑”,至今,晚疫病每年在世界范围造成高达数百亿美元的经济损失,严重威胁着世界粮食安全。目前,农业生产上对晚疫病的防控主要依赖于施用化学农药,然而严重依赖化学防治易造成病原菌抗药性
旋毛虫(Trichinellaspiralis)是一种肠道寄生线虫,感染人和动物引起旋毛虫病(Trichinellosis)。旋毛虫病是一种全球性分布的人兽共患寄生虫病,对我国畜牧业、社会经济以及国民健康具有严重威胁。研制安全有效的兽用旋毛虫疫苗,可以从根本上预防旋毛虫感染,是控制旋毛虫病的有力措施之一。旋毛虫弹性蛋白酶(Trichinella spiralis elastase-1,TsE),是
乳酸菌是应用广泛的益生菌种,对宿主的健康具有重要作用。肠出血性大肠杆菌是肠道致病菌,感染后多用抗生素进行治疗,而抗生素破坏肠道菌群的结构和组成,造成菌群失衡。肠道菌群在宿主的免疫等方面发挥重要作用。研究乳酸菌对大肠杆菌的抑制,有助于大肠杆菌的防治,减少抗生素的使用,对开发益生菌资源具有重要指导意义。本研究以鸡肠道组织为样品,体外以Caco-2细胞为模型筛选出抑菌能力强,耐受效果优并且具有粘附效果的
大多数人类和动植物的复杂性状都是数量性状,检测控制这些数量性状的基因位点(Quantitative trait locus,QTL)对剖析复杂性状的遗传基础至关重要。事实上,数量性状通常受数量多、效应微小、易受环境影响的QTL所控制,如果仅采用生物学方法检测基因,将耗费大量的人力和时间,因此常结合统计学方法来提高检测效率。全基因组关联分析(Genome-wide association analy
磷不但是核酸、蛋白质、ATP等重要生命物质的组成部分,还参与植株体内大部分生理生化反应过程的调节,同时也是棉花生长发育所必需的大量营养元素之一,与棉花抗逆性、产量和品质形成等密切相关。棉花缺磷将显著降低棉花产量,适宜的施磷量可在保证棉花产量的同时减少磷肥投入。棉花临界磷浓度稀释模型能定量化描述棉花临界磷浓度在不同发育时期的变化,而磷营养指数(Phosphorus Nutrition Index,P
中国的农业历史研究萌芽于二十世纪初期,金陵大学农业图书研究部是这段时期重要的农史研究中心。金陵大学农业图书研究部可以追溯到1920年成立的金陵大学农业图书合作部,自成立之初就开始进行以编制古农书索引为代表的基础性农史研究工作。本文主要依据耶鲁大学神学院图书馆亚洲基督教大学联合会档案中金陵大学的档案和中国第二历史档案馆馆藏的金陵大学全宗的资料,试图还原金陵大学农业图书研究部的创建过程、机构变迁、科研
激光表面织构化技术指的是在材料的表面利用激光器的高能量密度进行加工,制备出具有一定大小和方向的图案的加工方法。激光表面织构化技术其实来源于大自然,在大自然中,很多超疏水、抗磨损、低摩擦的物体都不是完全光滑的,在微观下观察可发现,他们的表面都存在一些细小的沟壑,所以在材料表面加工出微织构可达到提高硬度、减少磨损、提高疏水性等效果,表面织构化技术被广泛应用于摩擦学领域和润湿性能领域。本课题通过长脉冲激