论文部分内容阅读
环境微生物基因组学(Environmental Genomics,又被称为元基因组学,宏观基因组学,Metagenomics)直接对混合的微生物群落样本进行基因组提取,然后以多种微生物基因组的混合体为测序模板,对其进行高通量测序。这一方法不但免去了传统检测手段中分离培养纯化的步骤,更重要的是可以获取过去无法取得的未知细菌的基因组信息。与此同时,由于省略了繁冗的分离培养的步骤,环境微生物基因组测序项目通常的花费的只有传统方法的数十分之一,甚至数百分之一。
和传统的单一纯品样本测序不同,环境微生物基因组测序后的数据中包含的DNA片段来自于数百种,甚至上千种不同的细菌。并且,这上千种细菌中,只有很少一部分是已知的,绝大部分的DNA片段来源于未知细菌。近几年来研究人员提出了两大类研究环境微生物基因组数据中物种结构的方法,一种是基于序列相似性比对的方法,另一种是基于序列结构特征的方法。然而这两种方法在被广泛应用的同时也遇到了其技术瓶颈,其最主要的缺陷在于,这些方法很大程度上依赖于现有的微生物基因组参考数据库。而对于以序列结构特征为基础的方法来说,现有的算法往往大多和受监督的(supervised)或者半受监督的(semi-supervised)机器学习(machine learning)方法联合应用,基于已知微生物训练数据集建立起来的封装算法很自然的会倾向于将输入DNA片段归入到已知微生物种群中,从而产生较大的偏向性。
为解决上述核心问题,在这篇论文中,率先提出了基于序列结构特征(compositionfeature)并结合无监督(unsupervised method)分类的新型封装思路。在此基础上,通过对序列结构特征相似性的研究,设计了数种独特的距离定义及相应的系列封装算法:MetaCluster。MetaCluster可以在没有任何参考序列信息的情况下,高精度高效率的分类和封装环境微生物混合基因组测序项目所产生的数据集。从而将属于同一个物种基因组的序列以及属于相似物种基因组的序列从原始的混合数据中鉴别出来,形成一系列的群(groups),每一个群中的序列来自于同一个物种或者来自于物种分类树上同一个分支下的数个物种。最后再以独立FASTA格式数据文件的形式输出每一个群所含的序列。
首次应用l子串频度来描述一条DNA序列的结构特征,在此基础上选取核心l子串,用改良的切比雪夫距离定义两个l子串频度的距离,以此来描述两条DNA序列的相似性。结合无监督七均值聚类,MetaCluster1.0版本尽管原理相对简单,但是在封装效率,精度以及对测序错误的鲁棒性上都取得了较好的结果。就我们所知,MetaCluster1.0是第一个完全不需要任何先验知识的非监督封装工具,填补了宏观基因组研究的方法学空白。
为了进一步提高封装的效果,更加重要的是对DNA序列之间l子串频度的相似性给出更加科学的解释和定义。引入了一种在数学和计算机科学领域被广泛应用的顺序表相关性因子的距离定义:Spearman Footrule距离。MetaCluster2.0在进一步提高封装精度的前提下,也大幅改善了程序的运行效率,和同时期出现的封装算法LikelyBin相比,基于相同的测试数据和软硬件环境,在保证相同的封装精度的前提下,MetaCluster2.0的速度是后者的30-50倍。
在MetaCluster3.0版本中,采用了“先自上而下分解,再由下而上融合”的封装策略,从而解决了所有非监督算法都面临的物种间相对丰度差异较大的数据集的封装问题。实验结果表明,针对不同物种丰度比例的数据集,从最简单的1:1到最复杂情况的1:24,MetaCluster3.0都能保持很高的分类和封装精度。此外利用种内和种间Spearman Footrule距离的分布特性,建立概率模型预测封装数据集中物种的数量,和传统的非监督封装算法相比,MetaCluster最新版本可以完全自动的处理输入数据集,不再需要人为预估数据集中物种的大概数量。从而真正意义上实现了完全非监督的封装。
考虑到生物学家在研究工作所遇到的实际需求,在2.0及以后的版本中,亦提供针对封装结果进行物种分类注释的功能。可以在没有相关物种参考序列,甚至没有相似物种参考序列的情况为每一个封装簇标记上其可能物种分类信息。从而为生物学家在探索完全未知微生物的工作中,提供了宝贵的第一手资料。
本课题组正在从事国产高通量测序解决方案的开发,因此我们在常用生物信息学算法的基础上开发了基于"Browser-Server"结构的商业化软件AG Sequence Analyst,并与东南大学生物电子学国家重点实验室研发的AG系列高通量快速DNA测序系统无缝集成。AG SequenceAnalyst提供了基础的数据整理,错误修正以及格式转换等功能,以优化核心生物信息学算法的表现。此外该软件还为用户提供易用的图形化用户界面,高效的多用户并发任务流管理机制,严格的用户及用户文档控制等功能,并能够在后台自动清理分析流程产生的临时文件,无需用户额外处理。AG Sequence Analyst直接安装在AG系列高通量快速DNA测序系统的高性能计算服务器上,也为客户省去了购置计算硬件的高额成本投入。
目前MetaCluster的最新版本是3.0,其源代码,可执行文件,部分测试数据集和用户手册可以通过以下链接下载:http://i.cs.hku.hk/~alse/MetaCluster。AG Sequence Analyst为AG系列高通量快速DNA测序系统的随机附赠软件。