基于长k-tuple特征的微生物群落宏基因组非监督比较及生物多样性分析平台

来源 :厦门大学 | 被引量 : 0次 | 上传用户:puccacat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物群落是广泛存在于生态系统中的一种结构单位和功能单位。微生物群落的比较分析,一直是生态学研究的重点。高通量测序为微生物群落的比较提供了一种强有力的技术手段。通过高通量测序技术,来自环境中的微生物群落可以产生数十亿条长度为100-300bp随机读段,从而获得微生物群落的宏基因组测序数据。  不依赖已有的参考数据库进行微生物群落比较分析时,无需配准的基于短k-tuple(k=2-10bp)的方法可以很好地描述一个群落中所有短k-tuple的频度统计分布,但无法获取群落内部细致的生物信息。通常而言,k-tuple越长,那么它包含的生物信息就越丰富。然而,因为长k-tuple(k≥30bp)的频度向量的稀疏性,基于统计模型的短k-tuple方法将不再适用。于是本论文针对不具备类别先验知识的微生物群落样本,提出基于长k-tuple特征的非监督聚类分析方法,将文本主题挖掘的度量方法用于特征抽取,进行微生物群落样本的距离度量。  本论文设计了四组实验,实验结果表明:①本文提出的基于长k-tuple序列特征的方法能很好地识别高度相似的基因组的组间关系并把它们分开;②长k-tuple序列特征的方法的性能优于基于统计模型的短k-tuple方法的性能。当k≥12时,短k-tuple频度统计的方法将不再适用,而k=20-40bp时,长k-tuple序列特征的方法获得更好的分组结果;③长k-tuple序列特征的方法对测序平台/协议具有鲁棒性,但是短k-tuple的方法对测序平台/协议很敏感;④本文通过对聚类有效的40-tuple的生物信息分析,获得了一些有意义且可信的生物结果。  针对宏基因组测序数据,本文整合构建了微生物群落生物多样性分析平台,分析物种组成和基因功能。该平台不仅可以对微生物群落的全宏基因组高通量测序数据进行分析,还可以处理特异长k-tuple序列的生物分析。
其他文献
随着经济的快速发展和人民生活水平的普遍提高,中国北方冬季集中供热面积也在不断的加大,针对我国目前日益严重的环境和能源问题,国家采取了种种措施倡导保护环境和节约能源
许多重要的物理、力学学科,其基本的数学模型都是偏微分方程。偏微分方程是数学中最为活跃的分支之一,是数学和物理中很多内容的基础,有助于人们从微观到宏观对物质运动规律进行
织物的疵点检测是纺织品质量控制的重要环节,目前主要还是由人工来实现,面临的问题是:随着技术的进步,市场对织物质量检测的要求也越来越高,传统的人工检测方法存在劳动强度
车牌自动识别技术在智能交通领域扮演了越来越重要的角色,是目前智能交通管理的重要研究方向。随着社会对于车辆管理系统性能要求的日益提高和交通环境的日益复杂,现有的车牌