论文部分内容阅读
近年来高通量测序技术(High-throughput sequencing)蓬勃发展,不断地取得新的突破,逐渐引领人类进入后基因组时代。高通量测序技术相较于传统的芯片与低通量测序,可以更高效快速地得到海量基因组、转录组、表观组等组学数据,并能在全组学层面测定探索未知序列。这一里程碑式的变革使得对生物进行细致全貌的分析成为可能,进而从全新角度来解决生物学问题。与此同时,微生物基因组学在医学、工农业等有着重要的应用前景,目前也有很多全球国际项目如NIH人类微生物群系项目(Human Microbiome Project,HMP)、地球环境微生物计划(Earth Microbiome Project,EMP)。将高通量测序技术与微生物组学进行结合,恰好可以在微生物领域发挥重要作用。例如在未知病原微生物检测、突发传染病防控方面,可通过测序来快速地鉴定病原体,并通过溯源进化分析推断病原体与宿主可能的来源和研究传播途径,甚至进一步分析病原体毒力与耐药信息;而在宏基因组学领域,可通过海量的测序数据对微生态多样性、代谢功能富集等进行分析,从而研究特定表型与宏基因组的内在关联。在高通量测序技术广泛应用于微生物组学领域的同时,也给微生物组学的大数据分析带来了新的挑战。高通量测序数据类型多样、产出数据量大、待分析的生物学问题高度个性化,势必需要一种普适有效的生物信息学分析流程来解决这些问题。本研究综合使用多种生物信息学分析方法,对海量测序数据的微生物辨识、进化与微生物耐药性等一系列关键问题进行逐项论述和研究。本研究首先通过对相关理论和算法进行了深入比较讨论,不仅提出通用高效的微生物辨识分析方法,也针对不同类型特性的测序数据给出更优化的分析策略。而后基于微生物组测序数据的辨识结果,进一步讨论了微生物的系统进化分析原理与方法,包括基于高通量测序数据的微生物亲缘关系、分歧时间、基因进化速率、蛋白家族、菌株间重组等的分析。此外,也阐述了微生物组学的功能性相关分析方法,尤其是基于微生物测序数据的耐药性研究。最后,总结了文中有关微生物的系列研究分析方法,归纳提出了基于高通量测序数据的微生物的系统通用分析流程模式。在海量测序数据中如何进行快速、精准地辨识出微生物相关信息,对病原微生物检测、突发传染性疾病防控、食品安全检测等领域至关重要。针对这一问题展开研究,本研究首先即是讨论基于测序数据的高效准确分析方法。常规的病原体辨识方法主要包含比对和拼接两大类基本计算,而每一类又有更多的细致分类,需根据不同情况构造针对性的方法流程才能得到可靠的微生物辨识结果。文中以主流成熟的算法为主,通过归纳比较现有的多种平行分析算法与流程的效率与准确度,得出适合于微生物测序数据的通用分析辨识方法。不仅如此,文中亦对不同的测序数据类型和应用情况提出了优化的分析策略指导建议。研究中以典型的dna与rna病毒病原体为例,基于大量全面的仿真数据、实测数据和公开数据集进行测试和验证,深入系统地论证了在不同测序深度、测序读长、乃至混合感染、基因组融合与重组等情况下采取何种分析模式能够取得更好的病原体辨识效果,最终得到更优化的分析解决方案。溯源进化分析作为常见的生物信息学分析之一,在微生物辨识分类、生物进化机制研究方面有着重要作用。本研究主要对基于高通量测序数据的微生物进化分析方法进行研究,首先介绍进化分析的相关背景和理论基础,而后以幽门螺杆菌(helicobacterpylori)多重感染的实测病例数据为切入,讨论针对同种菌群的微进化分析。高通量测序技术的迅猛发展产生了前所未有的分子水平数据,这给传统的系统发生学带来了革命性的变化。基于全组学数据,不仅能得到更全面丰富的信息,也能减少传统基于特定基因组区域数据方法的偏性和误差。文中对基于高通量测序数据的进化分析相关理论和方法进行了细致的介绍,包括高通量测序数据在进化分析前的预处理、进化模型的构建原理以及选择方法、进化树的多种计算和评估方法等等。本研究中也包含了对多重感染幽门螺杆菌数据分析的实例介绍。在这一例慢性浅表性胃炎病患的活检样本中,分离出多达18株幽门螺杆菌克隆。随后在对菌群的微进化分析中,相比于仅考虑点突变的传统方法,文中还将重组事件纳入考虑。通过这种方法更准确地重构其多重感染病史,并计算得到不同感染阶段对应的分歧时间。特别的是,在微进化分析中,所有幽门螺杆菌分为两大不同特点的谱系分支,进化主要驱动因素为基因组重组且两分支进化速率有数量级上的差异。进一步对重组模式以及限制修饰系统的分析发现,高进化速率分支菌群的限制修饰系统缺陷可能是造成其更易发生重组事件的原因。此外,多菌株长期在宿主体内定植的微进化过程中,不同分支菌株通过基于交流,基因组的差异在近几年尺度上有逐渐减少趋同的倾向。论文这一部分对基于高通量测序数据的微生物进化分析进行了从理论到实例的详细介绍,既有通用的一般分析方法,也有个性化分析策略举例,可作为方法学上的指导和参考。微生物的耐药性分析对疾病的用药治疗有着重要意义。在耐药性分析方面,论文中以金黄色葡萄球菌的耐药性研究为例进行介绍。我们在猪源金黄色葡萄球菌中发现了对国内尚未上市新药达福普汀/喹努普丁(qda)的超前耐药性,对三株具有此种耐药性的金黄色葡萄球菌进行全基因组测序和分析研究,最终发现其对qda的耐药性源自编码atp结合盒式转运蛋白的lsa(e)基因。我们通过进一步的比较基因组分析发现,所有三株qda耐药的猪源金黄色葡萄球菌在iii型限制修饰系统方面的基因。此部分研究涉及的耐药基因分析、葡萄球菌染色体mec基因盒(staphyloccoccalcassettechromosomemec,sccmec)分析及比较基因组分析等方法,均可作为同类耐药性分析研究的参考。论文的最后对全文工作进行了简要总结,归纳了文中基于高通量测序数据的微生物辨识、进化与耐药性等的每一项分析系统通用分析流程模式,并对未来的工作计划做进一步的展望。