论文部分内容阅读
早期微生物研究依赖于人工分离培养,而大部分微生物无法在实验室条件生存,这阻碍了人们对微生物的了解。高通量DNA测序技术的发展,使研究者能够同时对多种微生物基因组进行测序,促进了不依赖培养的宏基因组学发展。宏基因组学研究主要分为两类:一类是只对物种标识基因如16S r RNA基因进行测序;另一类是环境中所有微生物的整个基因组进行测序。由于宏基因组学测序数据量大、数据复杂度高,在数据处理和分析方面尚未形成统一规范。为了解决这个问题,本文开展了以下三方面研究工作。第一,建立了用于处理16S r RNA基因高通量测序数据的软件流程,覆盖从原始测序数据到最终OTU丰度及分类信息表的所有步骤。其中采用有参考序列聚类和denovo聚类两种策略结合的方式,基于启发式聚类算法,提高了序列数据的利用效率。同时,通过对待聚类序列进行采样的策略,克服了传统方法无法适用于大规模测序数据的缺点。该流程为基于16S r RNA基因测序的研究提供了一套数据处理和分析的规范。第二,建立了基于短序列直接比对的宏基因组高通量测序数据流程,用于该类研究的物种多样性分析。相比传统的“短序列拼接、基因预测和基因序列比对”流程,本文直接将预处理后的短序列比对到物种标记基因数据库中以获得分类信息,以标识基因被比对上的序列数作为物种丰度。该策略在损失少量物种分类精度和覆盖面的情况下,极大地提高了数据处理的效率。第三,本文将上述流程应用到太湖水体和人类舌苔微生物群落的实际研究中。基于16S r RNA流程,本文在远高于同类研究的测序深度和样本量条件下,对不同月份太湖中不同位置的水体微生物群落结构做了全面描述,并对蓝藻水华与微生物之间的关系进行了研究。实验结果表明,群落结构组成在不同地点的差异要小于不同时间造成的差异,而且随时间的变化呈现显著的季节性和年周期性规律;同时,水华爆发对微生物之间的生态关系有较大影响。基于宏基因组流程,本文对胃炎和健康人舌苔微生物的群落结构组成进行了研究,找出了在胃炎病人和健康人中丰度显著差异的物种;同时基于典型对应分析,揭示了舌苔群落与性别、年龄以及身体质量指数之间的关系,一定程度上在分子生物学层面为中医舌诊提供了科学依据。