论文部分内容阅读
随着第二代测序技术的发展,针对微生物16S rRNA基因的高通量测序除用于人类健康的研究外,在畜牧业生产的各领域也得到了广泛地应用,比如研究肠道微生物结构与宿主经济性状间的关系。该方法有效克服了传统技术的缺陷,但随之而来的困难则在于对海量数据的分析。在16S rRNA测序数据的分析中,最关键的一个环节即是基于序列间相似度的分类单元(Operational taxonomic units, OTUs)聚类,从而用于代表在种或属等分类学水平上的不同物种,其准确程度显著影响到后续分析结果的可靠性。目前已有针对OTUs聚类的算法及软件(如Mothur和UPARSE),但存在假阳性率高、噪音信号强以及很难从生物学角度进行结果解释等问题。因此,本实验针对目前主流软件存在的问题,对OTUs的聚类算法进行了优化设计,并采用C和Python编程语言开发出以先注释后聚类为特点的分析软件(bioOTU);同时,基于模拟和真实数据对bioOTU的准确性与Mothur和UPARSE进行了系统地比较。主要结果如下:(1) bioOTU的算法设计针对通过前期质量控制后得到的干净序列(Clean tags),对所有样本进行合并后去冗余,得到非冗余序列(Unique tags),并记录每条tag的绝对丰度和样本丰度两个信息。将所有的Unique tags同源比对到参考数据库中,基于Bayes算法在属水平上进行物种注释,从而将所有序列区分为能被成功注释和无法被注释两种情况。随后,对被成功注释到同一属中的所有Unique tags进行两两间比对,计算序列间的距离(包括k-mer巨离和遗传距离),依据用户指定的阈值(如0.03)进行OTUs聚类。在此基础上,针对无法被注释的tags,计算它们与在上一步中已得到的OTUs司的平均连接距离(Average linkage distance),同样依据用户指定的阈值判定是否可以加入到已有的OTUs中。从序列注释开始,将以上步骤在不同分类学水平上(属、科、目等)逐级迭代运行,从而得到所有在分类学上已知的OTUs.随后,针对剩下的所有Unique tags,首先使用UCHIME算法进行嵌合体(Chimeras)序列的检测,然后依据绝对丰度和样本丰度两个信息对所有的tags进行排序,采用自下而上的启发式搜索算法(Heuristic algorithm)进行OTUs的从头聚类(de novo clustering),最后得到在分类学上未知的OTUs。(2) bioOTU的软件实现基于Python语言的灵活性与C语言的高效性,本实验采用Python语言搭建bioOTU的主体框架,且以脚本化运行的方式设计实现所有的分析环节。由于序列比对环节需要巨大的计算量,因此采用C语言从最底层改写遗传距离计算等核心环节,同时采用多线程并行计算的设计,从而极显著地提高了计算效率。另外,充分考虑软件使用的友好性,用户只需输入质量控制后的Clean tags, bioOTU在OTUs聚类完成后自动输出所有OTUs的注释信息以及在每个样本(或分组)中的丰度值,即同时实现了OTUs的聚类与注释。bioOTU提供免费下载使用,支持在类Unix操作系统上运行。(3) bioOTU的聚类效果比较分析利用人工模拟微生物群落(Mock community,共包含21个预定物种)的16S rRNA高通量测序数据,分别使用bioOTU、Mothur和UPARSE进行OTUs聚类,均采用默认或推荐的参数。结果发现,bioOTU、Mothur和UPARSE共输出74、311和28个OTUs,其中分别有18、15和18个OTUs被成功注释到预定物种上。通过计算每个OTUs的丰度值并与期望值进行比较,结果发现三个软件得到的物种相对丰度值与期望值间均具有较好的一致性。利用肠道微生物16S rRNA高通量测序的真实数据,对三个软件进行比较分析。结果发现,bioOTU得到了最少的OTUs数量(624个,对比于Mothur的5268,UPARSE的922)。bioOTU和UPARSE在OTUs丰度值上总体接近,但均显著高于Mothur输出OTUs的丰度值。基于同源对比产生金标准序列集,从而计算并使用归一化互信息值(NMI)判定软件聚类结果的准确性。结果显示,bioOTU的NMI值(0.914)要比Mothur的NMI值(0.922)低,但高于UPARSE (0.903)。因此,比较分析结果支持bioOTU的聚类准确性在总体上与该领域的主流软件相当,但在某些指标上则具有更好的表现。