环境微生物基因组物种结构无监督分析算法的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:fymps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境微生物基因组学(Environmental Genomics,又被称为元基因组学,宏观基因组学,Metagenomics)直接对混合的微生物群落样本进行基因组提取,然后以多种微生物基因组的混合体为测序模板,对其进行高通量测序。这一方法不但免去了传统检测手段中分离培养纯化的步骤,更重要的是可以获取过去无法取得的未知细菌的基因组信息。与此同时,由于省略了繁冗的分离培养的步骤,环境微生物基因组测序项目通常的花费的只有传统方法的数十分之一,甚至数百分之一。   和传统的单一纯品样本测序不同,环境微生物基因组测序后的数据中包含的DNA片段来自于数百种,甚至上千种不同的细菌。并且,这上千种细菌中,只有很少一部分是已知的,绝大部分的DNA片段来源于未知细菌。近几年来研究人员提出了两大类研究环境微生物基因组数据中物种结构的方法,一种是基于序列相似性比对的方法,另一种是基于序列结构特征的方法。然而这两种方法在被广泛应用的同时也遇到了其技术瓶颈,其最主要的缺陷在于,这些方法很大程度上依赖于现有的微生物基因组参考数据库。而对于以序列结构特征为基础的方法来说,现有的算法往往大多和受监督的(supervised)或者半受监督的(semi-supervised)机器学习(machine learning)方法联合应用,基于已知微生物训练数据集建立起来的封装算法很自然的会倾向于将输入DNA片段归入到已知微生物种群中,从而产生较大的偏向性。   为解决上述核心问题,在这篇论文中,率先提出了基于序列结构特征(compositionfeature)并结合无监督(unsupervised method)分类的新型封装思路。在此基础上,通过对序列结构特征相似性的研究,设计了数种独特的距离定义及相应的系列封装算法:MetaCluster。MetaCluster可以在没有任何参考序列信息的情况下,高精度高效率的分类和封装环境微生物混合基因组测序项目所产生的数据集。从而将属于同一个物种基因组的序列以及属于相似物种基因组的序列从原始的混合数据中鉴别出来,形成一系列的群(groups),每一个群中的序列来自于同一个物种或者来自于物种分类树上同一个分支下的数个物种。最后再以独立FASTA格式数据文件的形式输出每一个群所含的序列。   首次应用l子串频度来描述一条DNA序列的结构特征,在此基础上选取核心l子串,用改良的切比雪夫距离定义两个l子串频度的距离,以此来描述两条DNA序列的相似性。结合无监督七均值聚类,MetaCluster1.0版本尽管原理相对简单,但是在封装效率,精度以及对测序错误的鲁棒性上都取得了较好的结果。就我们所知,MetaCluster1.0是第一个完全不需要任何先验知识的非监督封装工具,填补了宏观基因组研究的方法学空白。   为了进一步提高封装的效果,更加重要的是对DNA序列之间l子串频度的相似性给出更加科学的解释和定义。引入了一种在数学和计算机科学领域被广泛应用的顺序表相关性因子的距离定义:Spearman Footrule距离。MetaCluster2.0在进一步提高封装精度的前提下,也大幅改善了程序的运行效率,和同时期出现的封装算法LikelyBin相比,基于相同的测试数据和软硬件环境,在保证相同的封装精度的前提下,MetaCluster2.0的速度是后者的30-50倍。   在MetaCluster3.0版本中,采用了“先自上而下分解,再由下而上融合”的封装策略,从而解决了所有非监督算法都面临的物种间相对丰度差异较大的数据集的封装问题。实验结果表明,针对不同物种丰度比例的数据集,从最简单的1:1到最复杂情况的1:24,MetaCluster3.0都能保持很高的分类和封装精度。此外利用种内和种间Spearman Footrule距离的分布特性,建立概率模型预测封装数据集中物种的数量,和传统的非监督封装算法相比,MetaCluster最新版本可以完全自动的处理输入数据集,不再需要人为预估数据集中物种的大概数量。从而真正意义上实现了完全非监督的封装。   考虑到生物学家在研究工作所遇到的实际需求,在2.0及以后的版本中,亦提供针对封装结果进行物种分类注释的功能。可以在没有相关物种参考序列,甚至没有相似物种参考序列的情况为每一个封装簇标记上其可能物种分类信息。从而为生物学家在探索完全未知微生物的工作中,提供了宝贵的第一手资料。   本课题组正在从事国产高通量测序解决方案的开发,因此我们在常用生物信息学算法的基础上开发了基于"Browser-Server"结构的商业化软件AG Sequence Analyst,并与东南大学生物电子学国家重点实验室研发的AG系列高通量快速DNA测序系统无缝集成。AG SequenceAnalyst提供了基础的数据整理,错误修正以及格式转换等功能,以优化核心生物信息学算法的表现。此外该软件还为用户提供易用的图形化用户界面,高效的多用户并发任务流管理机制,严格的用户及用户文档控制等功能,并能够在后台自动清理分析流程产生的临时文件,无需用户额外处理。AG Sequence Analyst直接安装在AG系列高通量快速DNA测序系统的高性能计算服务器上,也为客户省去了购置计算硬件的高额成本投入。   目前MetaCluster的最新版本是3.0,其源代码,可执行文件,部分测试数据集和用户手册可以通过以下链接下载:http://i.cs.hku.hk/~alse/MetaCluster。AG Sequence Analyst为AG系列高通量快速DNA测序系统的随机附赠软件。
其他文献
该文分析了专家系统的结构、知识表示方法以及专家系统构建方法,将人工神经网络的BP网络应用于专家系统作为其学习策略.因此,该文对BP网络的结构、数学推导及其算法设计进行
随着全面深化改革的持续推进,社会发展中的一些矛盾被凸显出来,甚至引发公共危机事件,影响了社会的安定稳定.媒体作为信息传播的“传声筒”,是政府和公众之间的重要沟通桥梁,
本文通过对G市某社区居民的调查,分析社区居民的心理服务需求,研究满足居民心理服务需求的方法.调查发现:居民对心理健康的认识基本到位,已有部分居民认识到心理健康、心理服
新时期是对中国逐渐“富起来”这一过程的准确定位,伴随着改革致富进程的加快,人们的思想也逐渐受到多元文化和思潮的影响.在如今经济新常态的背景下,如何使企事业单位各司所
垃圾焚烧重金属污染物的研究被划分为四个阶段,该文的研究主要涉及前两个阶段.为了准确、高效、简便的监测焚烧产物中的重金属污染物,文中首先参照国内外的常用方法和准则,建
村务监督委员会制度确立,有力的维护村庄的稳定、村庄经济发展,更为重要的营造积极的民主氛围,不断提升村民的民主意识.然而随着经济社会的发展,农村基层不得不面对更为复杂
本文对利港发电厂的经济性分析与优化管理的计算模型进行了较全面的研究,目的是为了向利港电厂的在线经济性分析系统提供计算方法,并为企业的高层决策者、技术管理者提供技术依
该文研究的目标是建立一个RH-KTB真空系统的故障诊断.对蒸喷射泵抽气理论和现场冶炼过程中的气体负荷进行了研究.该论文对专家系统在真空设备的故障诊断中的应用进行了探讨和
推进基层服务型政府建设,大力提升社会治理水平和公共服务能力,既是践行党的根本宗旨的本质要求,同时也是适应新时代改革开放和社会转型的必然趋势.当前时期,加强基层服务型