论文部分内容阅读
微生物群落是地球上生物多样性最为丰富的资源,广泛存在于海洋、土壤、河流及大气等自然环境,以及人体的口腔、皮肤、消化系统中。揭秘微生物群落的组成、结构与功能将极大地提高人类对世界的认识,为健康、环境、农业及能源等领域带来变革与创新。比较与分类不同环境中的微生物群落是深入理解复杂微生物世界的重要手段。对于来自不同环境中的微生物群落(例如病人与健康人的肠道微生物),探索其不同类别微生物群落之间的差异及识别类别特异的物种或基因,对于理解微生物与宿主之间的关系有着重要的作用。 宏基因组数据是指直接从环境样本中测序整个微生物群落中所有物种的遗传物质。当前大多数的分析方法依赖于基于参考序列的序列相似度配准,但由于现有微生物参考数据库的不完整性,因此该类方法很难覆盖微生物群落中的所有物种。同时,要从来自上千个物种的上亿条DNA随机测序读段中,拼装出单个的复杂宏基因组数据到具体微生物(例如特定的细菌株或者病毒等)的基因组序列存在着极大的挑战。因此,本文提出无需参考序列,即一种免于配准的微生物群落特异序列的识别方法。针对来自不同类别(例如病人和健康人)的数百个微生物群落测序样本,在每个样本的上亿条随机测序读段中,识别出不同类别群落的特异序列,从而为寻找可能的生物标记和后续的生物分析提供重要的参考信息。 本研究提出基于长k-tuple(k>30bp)序列作为特征来刻画微生物群落的方法,构建基于1028量级的特征过滤和处理流程,从而进一步识别出不同类别宏基因组测序大数据中的特异tuple,并通过分类来验证特异tuple的准确度和有效性。随后,在基于所获取的特异tuple的基础之上,通过序列拼装得到特异序列(contigs),并从进化分类学水平、基因预测及功能注解和代谢通路等层面识别出能够描述微生物群落特征的生物学意义。 本文将所建立的方法应用到IBD(Inflammatory Bowel Disease)和肝硬化(LiverCirrhosis)两种疾病的人体肠道微生物群落高通量宏基因组测序数据中。我们的方法能识别出特异性序列,且分类效果较已发表的结果相比有显著的提高。对于IBD宏基因组数据的特异性序列,本文从物种层面识别出了病人与健康人肠道微生物群落在物种组成上的差异;从基因层面识别出了多个与病原体相关的基因及所对应的具体微生物物种;从代谢通路上识别出了多个与蛋白质消化与吸收、氨基酸合成和金葡菌感染等相关的代谢通道。这些具体的生物意义对于进一步理解IBD的病因和特征等方面具有重要意义。 本文的研究表明长k-tuple更适合刻画微生物群落特征。识别出的特异性序列对于理解微生物群落与宿主之间的关系、发掘微生物群落潜在的生物标记提供了新的研究方向。