微生物16S rRNA基因序列分类单元(OTUs)聚类算法的设计与实现

来源 :四川农业大学 | 被引量 : 0次 | 上传用户:davidcao1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第二代测序技术的发展,针对微生物16S rRNA基因的高通量测序除用于人类健康的研究外,在畜牧业生产的各领域也得到了广泛地应用,比如研究肠道微生物结构与宿主经济性状间的关系。该方法有效克服了传统技术的缺陷,但随之而来的困难则在于对海量数据的分析。在16S rRNA测序数据的分析中,最关键的一个环节即是基于序列间相似度的分类单元(Operational taxonomic units, OTUs)聚类,从而用于代表在种或属等分类学水平上的不同物种,其准确程度显著影响到后续分析结果的可靠性。目前已有针对OTUs聚类的算法及软件(如Mothur和UPARSE),但存在假阳性率高、噪音信号强以及很难从生物学角度进行结果解释等问题。因此,本实验针对目前主流软件存在的问题,对OTUs的聚类算法进行了优化设计,并采用C和Python编程语言开发出以先注释后聚类为特点的分析软件(bioOTU);同时,基于模拟和真实数据对bioOTU的准确性与Mothur和UPARSE进行了系统地比较。主要结果如下:(1) bioOTU的算法设计针对通过前期质量控制后得到的干净序列(Clean tags),对所有样本进行合并后去冗余,得到非冗余序列(Unique tags),并记录每条tag的绝对丰度和样本丰度两个信息。将所有的Unique tags同源比对到参考数据库中,基于Bayes算法在属水平上进行物种注释,从而将所有序列区分为能被成功注释和无法被注释两种情况。随后,对被成功注释到同一属中的所有Unique tags进行两两间比对,计算序列间的距离(包括k-mer巨离和遗传距离),依据用户指定的阈值(如0.03)进行OTUs聚类。在此基础上,针对无法被注释的tags,计算它们与在上一步中已得到的OTUs司的平均连接距离(Average linkage distance),同样依据用户指定的阈值判定是否可以加入到已有的OTUs中。从序列注释开始,将以上步骤在不同分类学水平上(属、科、目等)逐级迭代运行,从而得到所有在分类学上已知的OTUs.随后,针对剩下的所有Unique tags,首先使用UCHIME算法进行嵌合体(Chimeras)序列的检测,然后依据绝对丰度和样本丰度两个信息对所有的tags进行排序,采用自下而上的启发式搜索算法(Heuristic algorithm)进行OTUs的从头聚类(de novo clustering),最后得到在分类学上未知的OTUs。(2) bioOTU的软件实现基于Python语言的灵活性与C语言的高效性,本实验采用Python语言搭建bioOTU的主体框架,且以脚本化运行的方式设计实现所有的分析环节。由于序列比对环节需要巨大的计算量,因此采用C语言从最底层改写遗传距离计算等核心环节,同时采用多线程并行计算的设计,从而极显著地提高了计算效率。另外,充分考虑软件使用的友好性,用户只需输入质量控制后的Clean tags, bioOTU在OTUs聚类完成后自动输出所有OTUs的注释信息以及在每个样本(或分组)中的丰度值,即同时实现了OTUs的聚类与注释。bioOTU提供免费下载使用,支持在类Unix操作系统上运行。(3) bioOTU的聚类效果比较分析利用人工模拟微生物群落(Mock community,共包含21个预定物种)的16S rRNA高通量测序数据,分别使用bioOTU、Mothur和UPARSE进行OTUs聚类,均采用默认或推荐的参数。结果发现,bioOTU、Mothur和UPARSE共输出74、311和28个OTUs,其中分别有18、15和18个OTUs被成功注释到预定物种上。通过计算每个OTUs的丰度值并与期望值进行比较,结果发现三个软件得到的物种相对丰度值与期望值间均具有较好的一致性。利用肠道微生物16S rRNA高通量测序的真实数据,对三个软件进行比较分析。结果发现,bioOTU得到了最少的OTUs数量(624个,对比于Mothur的5268,UPARSE的922)。bioOTU和UPARSE在OTUs丰度值上总体接近,但均显著高于Mothur输出OTUs的丰度值。基于同源对比产生金标准序列集,从而计算并使用归一化互信息值(NMI)判定软件聚类结果的准确性。结果显示,bioOTU的NMI值(0.914)要比Mothur的NMI值(0.922)低,但高于UPARSE (0.903)。因此,比较分析结果支持bioOTU的聚类准确性在总体上与该领域的主流软件相当,但在某些指标上则具有更好的表现。
其他文献
民主和谐的师生关系是实现教学目的的关键。在课堂教学中,老师必须创设民主、平等的师生关系,营造宽松、和谐的课堂气氛,努力做到“教得轻松,学得愉快”,让课堂充满情感的碰撞、情
2017年12月4日,中国水产科学研究院珠江水产研究所陈昆慈研究员领导的鳢育种团队对年内试验养殖的全雄乌斑杂交鳢进行性别鉴定,通过随机捞取50尾鱼解剖性腺观测,雄性率为100%
<正>近年来,随着人们生活水平的提升,对高端海产品的需求越来越旺盛,而长期以来的过度捕捞难以为继,每年花费数百亿元进口海产品,造成了大量的储备外流。为此,国家已启动海洋
学校文化是一所学校的灵魂所在,是学校底蕴的反映,是办学理念的载体,是办学品位的标志。校园文化不仅具有美化功能,更具有育人功能,时刻发挥着隐性教育的作用。对于引导学生提高思
总体上,我国的税收立法权主要掌握在中央政府手中,地方并无实质上的税收立法权。但近年来,《立法法》的修改、对于地方放债的放宽和"营改增"的推进,使得地方政府的财政情况趋
澳洲银鲈(Bidyanus bidyanus),又名银锯眶鯻,隶属鲈形目(Perciformes),鯻科(Teraponidae),原产于澳大利亚Murray-Darling河流域,具有性温和、养成率高、饵料系数低、生长速度快等诸
由于RH-OB脱气装置的应用和连铸比升至100%,钢包的寿命在走下坡路,平均寿命从85炉次以上降到不到50炉次,并用钢包的可靠性民严重地下降。因此,采用一种双插的方法来提高包龄,并且,在耐火材料,设计
本文主要针对商业银行渠道建设问题展开研究。认为商业银行渠道建设具体可从以下方面入手:建立渠道整合组织,制定整合战略规划;明确渠道定位,优化升级现有渠道;健全渠道管理
在过去的十二年里,美国和加拿大的氧气顶吹转炉耐火材料内衬的使用寿命,已经提高了三倍以上,而过去的一年半内提高了36%。考察有关延长耐火材料内衬寿命的操作实践和耐火材料维修实
本实验研究了甘油、山梨醇、聚乙二醇200以及甘油/聚乙二醇400(3/1)的混合物作为增塑剂对乳清蛋白-丝胶复合膜性能的影响。结果表明:增塑剂对乳清蛋白-丝胶复合膜的性能有显