论文部分内容阅读
宏基因组学,广泛指研究直接来自环境的基因材料的学科,被认为是微生物发展中的一个里程碑。它不仅仅使得对未培养或者不可培养的微生物的研究成为可能,也使得研究同一环境中的微生物在自然条件下的相互作用以及微生物和环境条件的相互作用成为可能。随着测序技术的迅速发展,大量的宏基因组测序数据不断积累,包括一些标签基因,女(?)16S rRNA基因,以及全基因组测序数据。现在,一些与人类、土壤和海洋生命有关的大型宏基因组项目正在进行,持续产生大量的数据,亟需新的高效分析方法的产生。宏基因组研究中的主要问题包括:1),理解在不同条件下微生物的聚集;2),比较不同的群落:3),理解微生物相互之间,以及微生物与环境因素之间的关联。本文针对宏基因组数据分析中的一些问题展开,大致介绍了宏基因组学,包括一些基本概念,研究对象,主要问题等等,并针对下面两类问题,进行了具体的探讨。1.群落比较Beta多样性,也即衡量群落之间的差别,在许多研究领域,尤其是生态学研究中,具有重要的意义。研究者已经提出了一些统计方法来度量Beta多样性,这些将在第2章中详细谈到。在这些方法中,UniFrac和加权的UniFrac近几年来应用广泛。基于一个以两个群落中所有元素为叶节点的系统发生树,UniFrac这样定义两个群落之间的距离:对于系统发生树中的所有枝,考查其指向的叶节点是否只存在于同一群落,那些叶节点只存在于同群落的枝的枝长和,占整个树的枝长和的比例,就定义为UniFrac距离。UniFrac的概念非常容易理解,直观来讲,就是计算了仅被一个群落占据的进化历史的相对大小,这个量越大,说明两个群落中独立的进化过程越多。加权UniFrac(W-UniFrac)方法,是在UniFrac的基础上,将序列的丰度(数量)纳入考虑,它能够区分物种丰度的差别。在计算中,W-UniFrac按照每条枝指向的叶节点中来自两个群落的比例,给每条枝加权重。然而,W-UniFrac的计算不考虑权重的方差,这可能给考察群落之间真实的相互关系造成困难。考虑系统发生树的枝i.假定原假设是所有个体的标记随机分布于系统发生树的叶节点,那么,我们指出Ai,枝i指向的序列在群落A中的数目,在原假设下服从参数为(mi,m,AT)的超几何分布,其中mi=Ai+Bi表示枝i指向的序列的总数,m=AT+BT表示群落A,B中所有序列的总数。经过一系列推导,我们为系统发生树的枝i,提出一个新的方差调整的权重(variance adjusted weighted, VAW),即我们对得出的统计量进行标准化,以保证它的值介于0与1之间。最终得到的VAW-UniFrac定义为:数值模拟和实际数据应用,都表明VAW-UniFrao能够较好的衡量群落之间的距离,它不仅考虑群落中物种的组成,还将各物种的丰度信息纳入考虑。2.在两类样本中,识别具有显著丰度差别的操作分类单元微生物数据分析中的一个重要问题,是在不同环境/生物条件下,识别具有显著丰度差别的操作分类单元(Operational Taxonomic Unit, OTU)。这里的操作分类单元,通常是通过对微生物的标签基因序列按一定的相似度归类得到的,可以认为是比物种更细化的生物分类单元。针对这类问题的方法十分有限,主要包括应用两样本t检验或Wilcoxon秩和检验的方法,检验两种条件下,给定OTU的平均差别。因为有些OTU非常稀疏,只在很少的样本中出现,因此可以用Fisher精确检验方法来检验分类单元出现与否是否有显著差别。White等于2009提出将Fisher精确检验和t检验结合起来,在进行分析前,先选定一个适当的阈值,把OTU分为“稀少组”和“常见组”两类,然后分别应用Fisher精确检验和t检验进行检验。这些方法都是对每一个单元分别检验,而不考虑每一样本中各OTU组成成分数据的和为1.寻找有显著丰度差别的OTUs,这个问题很类似于基因表达研究中,寻找异常表达基因的问题。然而作为微生物组成数据,数据的特点有所不同,因此需要新的统计方法。首先,对给定的OTU,其在各样本中数目的变化可能很大,而且大部分的OTUs只出现于很小一部分样本中。这使得数据表中有大量的零。第二,数据在列方向上不是独立的。对OTU数目数据,每一列的和,表示一个样本中OTUs的总数,由测序过程和测序深度决定。因为不同样本含的OTU总数不同,所以同一行的数据不具可比性。若将数口数据,转化为组成成分数据,即在总数中所占的百分比,则每列的和为1.第三,因为非常稀疏的OTUs在样本较少的情况下,是很难观察到的,因此我们的观察数据往往是零截断的。也就是说,总有一些实际存在的OTU,在样本中没有出现。本文中,我们提出了一种新的识别具有显著丰度差别的OTUs的经验贝叶斯方法。为了解决过度分散和存在大量稀少OTUs的问题,我们提出使用Beta-Beta-Binomial来对观察到的OTUs计数数据进行建模。而为了解决观察数据都是零截断的问题,使用截断概率分布。大量的模拟表明,与t检验,Wilcoxon秩和检验和Fisher精确检验相比,新的经验贝叶斯方法具有更大的功效,能够较准确的估计FDR。另外,我们还将这一方法用于一个吸烟与不吸烟者喉咙微生物数据集,并得到了具有生物意义的结果。本文的组织结构如下:在第一章中,我们简要介绍了宏基因组学,解释了一些基本概念,尤其是操作分类单元(operational taxonomic units, OTUs),最后介绍了宏基因组学的一些主要研究领域和问题。在第二章中,集中讨论群落比较的问题。我们将现有的比较群落的方法分为两类:“基于OTU”和“基于系统发生”的方法,之后我们回顾了群落比较中的几种经典方法,并主要针对UniFrac和加权UniFrac展开研究,提出一种新的方法,称为“方差调整的加权UniFrac "(VAW-UniFrac)。为了检验’VAW-UniFrac的效果,我们首先进行了一系列模拟,发现其总是比W-UniFrac更有效,当个体来自不均匀分布时,、VAW-UniFrac也比UniFrac表现更好。另外,将三种方法应用于3个大型的16S rRNA基因数据集,包括人类皮肤微生物群落,老鼠肠道群落,来自盐水湖的土壤和沉积物微生物群落,和一个热带雨林普查数据。模拟和实际数据的应用都表明、AW-UniFrac可以很好的度量群落间的距离,将物种组成和物种丰度信息都纳入考虑。在第三章中,我们讨论寻找两类样本组中,具有显著丰度差别的OTUs。我们提出了一种经验贝叶斯方法,来识别在两类样本中,OTUs的丰度是否有显著差别.为了考虑过度分散,存在大量稀少OTUs,以及观察数据都是零截断的问题,建立了Beta-Beta-Binomial模型并引入截断概率分布的概念。最后进行了大量模拟,并将新的方法应用于实际数据:吸烟者与不吸烟者喉咙微生物数据,得到了具有一定生物学意义的结果。