论文部分内容阅读
微生物与人类健康密切相关,它们与宿主之间是一个相互依存、相互作用、不可分割的整体。菌群与宿主之间相互交换能量物质、传递信息,对宿主有营养、免疫、刺激生长和生物拮抗等作用。菌群对人的健康起到至关重要的作用,越来越多的研究报道疾病发生发展与微生物相关。涉及的疾病包括肥胖、糖尿病、肝硬化、各类肠病、中风、自闭症和类风湿关节炎等等。这些研究着重寻找微生物物种和基因在不同样本组中丰度的差异,如2型糖尿病患者的肠道微生物中产丁酸盐细菌丰度下降等。但由于基因序列的不同甚至单个碱基的差别都会导致基因功能的不同,因此宏基因组研究不能仅局限在物种和基因丰度上的分析,还应该关注基因内容的变化,例如单碱基突变、插入删除以及结构变化等。虽然目前已有对宏基因组SNP的初步研究,但与疾病的关联研究还未见报道。如果能在大规模样本下比较分析疾病与健康人群肠道微生物组基因组水平的变化,寻找疾病相关微生物组SNP模式,将对揭示微生物组与人类疾病关系提供全新的视角,为相关疾病的诊断和治疗提供新的依据。据我们所知,目前国际上并没有通过研究宏基因组SNP来探索疾病与微生物关联研究的框架。因此,本研究从宏基因组SNP模式的角度出发,构建了相关分析框架,并将之应用于2型糖尿病和肝硬化的分析。首先我们构建了与疾病关联的宏基因组SNP分析框架。这一框架包括测序数据质量控制、参考基因组构建、序列比对、SNP查找及质量控制、进化树分析、目标物种和基因筛选、多重检验校正、SNP注释、基因注释和富集分析、多克隆分析以及可视化展示。由于宏基因组自身存在微生物物种繁多、样本个体差异大以及已知信息缺乏的特点,我们在各个阶段对数据进行了有针对性的分析和优化。为提高可信度,我们在SNP查找阶段使用SAMTools和VarScan2两个工具,对结果取交集;我们使用不同的突变碱基频率进行了反复分析,同时我们还使用突变碱基频率对样本进行层次聚类和AP聚类,来判定多克隆问题对结果的影响;可视化展示阶段,我们直观的描绘了基因SNP模式在不同组之间的区别,使得对结果的解析更加容易。其次,我们使用构建的框架对2型糖尿病与肠道宏基因组SNP的关系进行了分析。我们下载了170个2型糖尿病患者和174个正常个体的粪便宏基因组测序数据,对数据进行质量控制后,我们使用MetaPhlAn2进行了丰度分析,发现有86个物种在疾病组和正常组中具有显著差异的相对丰度。与之前的报道相吻合,如产丁酸盐细菌在糖尿病组中的缺乏,以及Firmicutes门与Clostridia纲的比例在2型糖尿病患者肠道中比正常个体肠道中更高。为了分析基因组与基因水平SNP的差异,我们在样本集合中找到了356个普遍存在的物种用来做参考基因组,并进行了质控后数据的重新比对。我们发现有20个物种在样本中出现率较高且满足读段覆盖度的条件,其中包括多个Bacteroides属下的物种。在这20个物种中,我们识别到5.94M的可信SNP。Bacteroides coprocola是唯一一个SNP密度在正常组和糖尿病组中存在统计学差异的菌种。进化树分析显示,疾病组和正常组的B.coprocola富集在不同的cluster里。在基因水平,我们找到51579个满足覆盖度和样本出现率的基因。对它们的SNP密度在两组中的差异进行检验,有1300个基因在正常组和糖尿病组中存在差异的SNP模式。通过对偏性SNP的富集分析,我们筛选到65个需重点关注的基因。这65个基因均来自于B.coprocola,且第1名和第6名均为糖基水解酶,提示微生物的糖基水解功能可能在糖尿病发生发展中存在作用。进化树和SNP模式的分析也进一步确定了这些基因在正常组和糖尿病组中的差异。我们还基于MuAF对样本进行了聚类,得到了与之前一致的结果。另外选取MuAF>0.8和MuAF>0.2的SNP重新做了分析,结果仍具有高度一致性。这一分析从多克隆方面对我们的结果进行了支持和验证。最后,我们对肝硬化与肠道宏基因组SNP的关系进行了同样的分析。我们下载了123个肝硬化患者和114个正常人的粪便宏基因组测序数据,在进行数据质量控制之后,我们发现有121个物种的相对丰度在肝硬化组和正常组中存在统计学差异。为了找到在基因组水平的差异,我们使用362个符合条件的微生物物种做为参考基因组并进行了重新比对。进一步筛选后,有13个物种满足覆盖度、测序深度以及样本数等条件。在这13个物种中,我们识别到3.93 M的可信SNP。其中Faecalibacterium cf.prausnitzii KLE1255是唯一一个SNP密度在正常组和肝硬化组中存在统计学差异的菌株。进化树分析显示,疾病组和正常组的Faecalibacterium cf.prausnitzii KLE1255分别在不同的cluster里占优势。在基因水平,我们找到32603个基因满足覆盖度和样本出现率的条件,有1245个基因在正常组和肝硬化组中存在差异的SNP模式。通过对偏性SNP(Biased SNP)的富集分析,筛选到279个需重点关注的基因,全部来自Faecalibacterium cf.prausnitzii KLE1255。我们对这些基因做了功能注释和基因富集,其中前两名分别编码了一种丙酮酸合酶和一种ATP依赖性伴侣蛋白ClpB。进化树和SNP模式的分析也进一步确定了这些基因在正常组和糖尿病组中的差异。在宏基因组领域,我们首次对微生物SNP模式与疾病之间的关联展开研究。我们所构建的框架同时具有高效性和可信度。利用这一框架,我们首次发现Bacteroides coprocola与2型糖尿病、Faecalibacterium cf.prausnitzii KLE1255与肝硬化之间的关联。这些结论为宏基因组学研究开拓了新的方向,为后续的研究提供了新的线索和思路。