宏基因组样本beta多样性解析方法研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:ffanhaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然界中的微生物大多以“微生物群落(菌群)”的形式存在,微生物群落的结构和功能与其共生环境的状态息息相关。宏基因组测序可以获取微生物群落详细的基因组信息和高分辨率的分类学信息。大规模宏基因组样本的beta多样性可以在样本的结构、功能特征与其元数据(如环境状况或健康状态)之间建立联系,精确、全面地计算宏基因组样本之间的距离对于理解宏基因组的beta多样性起着至关重要的作用。然而,目前针对宏基因组样本结构距离的计算方法往往忽略了物种之间的进化关系,抑或是忽略了无法明确具体物种信息的微生物,从而导致对beta多样性进行错误地解读。而且目前针对宏基因组样本的功能距离计算方法往往忽略了功能基因家族之间的内在联系,同样会导致错误的距离结果和beta多样性解读。另一方面,大多数现有的基于样本之间的距离矩阵来推导和解析宏基因组beta多样性模式的多维缩放方法(如主坐标分析(PCo A))的吞吐量受到计算效率的限制,从而阻碍了更大范围的数据挖掘。为解决以上问题,本文提出了Dynamic Meta-Storms(以下简称DMS)算法,基于生物分类和系统发育信息,将已识别的物种映射到系统发育树的叶子结点上,将无法明确具体物种的成分根据其更高级别的分类信息动态地放置到系统发育树的虚拟结点上,进而在物种水平上对宏基因组样本结构进行全面的比较;同时提出了Hierarchical Meta-Storms(以下简称HMS)算法,基于功能基因之间的多级代谢通路层次,根据各层级代谢通路之间的距离,全面衡量宏基因组样本之间的功能距离;并利用并行计算优化了PCo A实现方式(Parallel-PCo A),使得准确快速地解析数万级别样本的beta多样性成为可能。DMS、HMS和Parallel-PCo A均采用C/C++实现,并利用Open MP完成并行化优化,具有通量大且消耗资源少的特点。DMS以宏基因组样本物种丰度表为输入,输出其结构距离矩阵,在单个具有80线程的独立计算节点上计算10万个宏基因组样本的结构距离矩阵需要6.4小时,比Striped Unifrac算法快20%,且节省40%以上的内存消耗;HMS以样本功能基因丰度表为输入,输出样本间功能距离矩阵,在同一个计算节点上可以在73分钟内计算2万个宏基因组样本的功能距离,比现有的算法平均快36倍,并减少82%的内存占用,Parallel-PCo A以样本结构或功能距离矩阵(如DMS和HMS的计算结果)为输入,输出样本经过PCo A降维后在低维(如2、3维)空间内的映射坐标,直观地解析样本间的beta多样性。其在上述计算节点计算2万个样本的PCo A坐标只需161分钟,比目前的算法平均快17倍,消耗内存减少了80%。因此,DMS、HMS和Parallel-PCo A可以实现宏基因组样本高分辨率的深度数据挖掘。
其他文献
步入21世纪后,中国经济发展势头强劲,一跃成为全球第二大经济体。但在快速经济发展的同时,国内能源问题也日益突出。根据去年全球能源使用情况调查数据显示,中国已成为能源消费最大的国家之一。为了缓解能源枯竭带来的危机,中国政府连续多年出台政策,对工业、建筑业和交通业三个能耗巨头的发展提出了一系列可持续发展的新要求。以建筑行业为例,每年建筑能耗使用占比超过了社会各行业总能耗的三分之一,且针对于建筑方面的节
近年来,中国经济发展迅速,城市现代化水平不断加深。然而,交通车辆保有量的急剧增加给城市交通运行带来了巨大的压力。出租车、公交车等公共交通工具的精准时间预测,不但能够利于人们对行程进行合理规划,节约时间,而且能缓解交通拥堵现象,避免人力、能源等浪费,进而给城市的规划建设提供重要参考。交通车辆通行时间预测研究已经成为智能交通领域的热点问题之一。然而,传统的研究方法无法充分提取各轨迹路径之间的时空特性,
生成对抗网络(GAN)作为一种深度学习模型,凭借可以在训练阶段提取真实图像和生成图像丰富特征的优势,正逐渐被应用于监督和半监督的图像识别中。本文围绕GAN模型图像识别精度的提升,在原始GAN模型的基础上做了以下工作:(1)原始GAN模型对图像特征的提取在一定程度上依赖判别器自身的学习,导致其提取到的数据特征与真实数据特征之间存在一定的偏移,影响了GAN模型图像识别的精度。针对这个问题,本文在原始G
我国是茶叶的生产大国,茶种植区的监测工作对我国经济发展具有重要意义。然而传统的人工野外勘测方法需要耗费大量的人力物力,时效性差,精度低,不能及时有效地获取茶种植区空间分布信息,同时也有着比较高的误差。遥感技术具有准确、及时获取信息的天然优势,因此使用遥感监测的方法实现对茶种植区的自动提取是可行的,但同时由于茶树在光谱特征上与其它农作物种植区的相似性,导致目前的茶提取算法难以达到良好的效果。本文以遥
基于光谱特征结合机器学习方法准确提取湿地信息并研究其动态变化,对于湿地环境监测和保护具有重要价值。随着人口增加,城乡建设快速发展,围垦、埋填、占用湿地,有害物质排放进入湿地,破坏了湿地生态环境,湿地的面积日益减少。因此,急需一种新的分类手段,以利于湿地的动态监测,湿地环境保护和合理的开发建设。城市建筑物分割是高分辨率遥感的热门研究领域。然而,高分辨率遥感图像的各种外观和复杂的背景使得城市建筑物的精
系统的状态估计问题广泛存在于自动驾驶、数据传输、故障诊断等领域,由于环境影响、模型参数不当选取、测量设备故障等原因,系统状态方程和测量方程中往往含有未知输入。而未知输入的存在使得上述状态估计问题的研究变得非常复杂。因此,本文考虑含有未知输入的线性系统和非线性系统,研究系统状态和未知输入的估计问题。首先,针对未知输入直接馈通到线性系统测量方程的情况,提出新的扩展递归三步滤波器,同时估计未知输入和线性
海岸线变化监测对海岸带的科学管理和保护具有重要意义。随着高分辨率遥感图像的快速积累,自动提取高分辨率遥感图像中的水边线(海陆分割线)是实现海岸线变化监测的重要手段。但高分辨遥感图像中地物细节复杂,陆地上临近封闭内水区域的边界极易被误识别为海陆分割线;另一方面,由于水边线本身类型多样(包括人工、砂质、淤泥质等)且易受附近地物遮挡,提取的水边线极易存在断点不连续的情况,因此,研究基于高分辨率遥感图像的
随着互联网技术的迅猛发展和众多无线智能设备的普及,越来越多的移动用户趋向于使用移动设备下载内容、浏览新闻视频等。用户的这些行为导致了移动数据需求量的爆炸性增长,给移动蜂窝网络运营商造成了巨大的数据流量负载和网络拥塞。目前,大部分工作或针对激励机制,或针对用户合作参与D2D分流,而忽略了CT的自私与不合作属性,考虑不够全面。基于设备到设备的机会通信辅助移动数据分流,并激励用户积极参与,实现内容传输用
随着社会就业压力不断增加,以及2020年以来受新冠疫情影响,精神疾病的患病率不断提高。然而,我国目前精神疾病患者选择到相关门诊就医的人数不到十分之一,若得不到及时地确诊和医治可能引发其他相关疾病。因此,一套高效简捷的人格检测工具对国民精神疾病筛查非常必要。明尼苏达多项人格检测量表(Minnesota Multiphasic Personality Inventory,MMPI)是世界上使用最普遍的
水下滑翔机是一类特殊的水下采样机器人,具有制造成本低,续航里程长等优点,适用于大尺度范围、长工作周期的水下观测任务,符合人类多样化探索海洋的实际需要。由于水下滑翔机特殊的工作原理和运动方式,在实际应用中,对环境因素更加敏感,因此对水下滑翔机进行路径规划方面的研究是保障其能够顺利完成海洋观测任务的关键技术之一。本文以混合驱动水下滑翔机为研究对象,为提升水下滑翔机运行特性,在建立其动力学模型的基础上,