论文部分内容阅读
自上世纪70年代美国微生物学家伍斯(Carl Woese)率先使用核糖核酸(RNA)序列研究原核生物进化关系并发现古细菌开始,基于16S rRNA基因序列的分析便成为研究原核生物多样性以及分类鉴定的核心方法,至今仍被广泛应用。 目前基于16S rRNA基因序列的分类鉴定系统有EzTaxon和RDP Classifier。EzTaxon和RDP Classifier在鉴定方法和应用场景上存在差异。EzTaxon提供在线的分类鉴定服务,其鉴定方法的核心是序列比对;RDP Classifier提供在线和本地的分类鉴定服务,其鉴定方法是基于朴素贝叶斯的分类器。EzTaxon和RDPClassifier存在如下缺点:其一,EzTaxon不适用于想把私有16S rRNA基因序列也考虑在内的实验室。其二,EzTaxon在鉴定方法上没有创新;RDP Classifier虽然尝试使用机器学习方法鉴定微生物,但其鉴定效果有限,没法鉴定物种到种。其三,RDP Classifier没有考虑基因位置信息。 基于上述问题并结合实际需求,本论文搭建了一个微生物辅助鉴定系统,对鉴定方法进行了深入探索。本论文的主要工作和贡献如下所述: 1.本论文构建了公共16S rRNA基因序列数据库。参照现有基于16S rRNA基因的项目,本论文从GenBank中解析和提取所有原核生物16S rRNA基因序列。针对GenBank中16S rRNA基因序列可能存在的问题制定了质量控制策略,然后开发Pipline工具组合质量控制策略来完成对提取的16S rRNA基因序列的质量控制。 2.本论文从现有辅助鉴定方法出发给出了三个辅助鉴定模型:借助局部比对工具的辅助鉴定模型,借助聚类-分类的辅助鉴定模型以及借助文档相似度的辅助鉴定模型。这三个辅助模型是对EzTaxon鉴定方法的归纳和升华,将机器学习和信息检索技术与序列比对相结合。与EzTaxon相比,鉴定模型不再仅仅依靠传统微生物鉴定方法技术,而是将实用的计算机技术应用于微生物鉴定领域;与RDP Classifier相比,传统微生物鉴定方法可以反过来弥补使用机器学习和信息检索技术的不足,修正物种鉴定的结果。 3.本论文设计了在线微生物辅助鉴定系统的总体框架,根据总体框架实现和组装各个功能组件。