Docker生物云计算平台分析松材线虫高通量测序数据的应用研究

被引量 : 12次 | 上传用户:gyquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着二代测序技术在生命科学研究领域的广泛应用,生物学家们正面临生物大数据处理、分析的挑战,同时生物大数据也将成为生命科学领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。高通量测序技术的发展,推动序列数据的迅速增长,普通实验室也可以达到PT级生物测序数据量,如此大规模的数据的有效存储、高效分析、共享利用,都是我们面对的难题,对高性能计算也提出了严峻的挑战。目前已测序的物种也只是一小部分而已,已完成测序的物种相关数据的分析也不深入。在算法优化、软件并行化、流程自动化、大规模数据存储、处理及深度分析等层面,有亟待的工作需要广泛开展。针对新一代测序数据量大、数据处理过程复杂、对计算资源要求高等特点,云计算提供了一种有效的解决途径,云架构下的平台搭建,存储、计算软件开发,工作流框架正在不断发展完善,并在未来的生物大数据分析、存储方面发挥着重要作用。Docker是PaaS提供商dotCloud提供的一款基于LXC (LinuX Contai-ners)开源项目。Docker目前在云计算领域迅速发展,包括dotCloud、Google Compute Engine和百度应用引擎(BAE),都使用了Docker。LXC是一种共享Kernel的操作系统级别的虚拟化解决方案,通过在执行时不重复加载内核,且虚拟容器(Container)与宿主机(Host)之间共享内核来加快启动速度和减少内存消耗。相比较传统的虚拟化,基于LXC的轻量虚拟化Docker可以做到启动快且占用资源少。因此,Docker是良好的构建云计算的架构,Docker正在给云计算带来一场革新,Docker可以灵活地封装软件,令其更快速地传播。Docker技术的实现意味着,如果在一台笔记本上编写了一个软件,可以将它移动到本地服务器或云服务器,而不需要做任务改变。这一直都是云计算的目标:互联网就是一台巨型计算机。生物大数据也具有数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)的“4V”大数据特点,Docker的便捷、高效的特点适应了生物大数据发展的需求,所以Docker生物云计算平台是应对生物大数据的最佳方案,本文Docker技术为基础进行了深入研究和探讨其在生物大数据分析方面的应用开发,并将开发的ubuntu14.04biodocker生物云计算平台应用于松材线虫的高通量测序数据个性化分析中,为分析、处理高通量测序产生的生物大数据提供一种方法和思路。研究内容如下:(1) Docker在Ubuntu操作系统中的安装及基本的Docker命令。(2) Docker中的数据管理及基本命令的探讨:数据存储及管理是Docker技术的一个重要内容,我们探讨了如何在容器中挂载主机的数据及如何创建数据容器等一些内容。(3)基于ubuntu-14.04-x8664. tar. gz模板,创建ubuntu14.04 biodocker基础镜像,由于一些分析软件依赖许多环境,所以我们选择的一个较完整的系统作为基础镜像。(4)基于ubuntu14.04biodocker基础镜像,我们深入探讨了使用三种方法在镜像中安装基因组,转录组,宏基因组等相关软件及处理原始数据的脚本,构建了ubuntu14.04biodocker生物云计算平台镜像。该生物云计算平台镜像可以快速、高效的移植到任何一台linux内核的操作系统平台,无论是单机、集群,谷歌或亚马逊的云服务。方便了高通量测序数据分析平台在不同硬件环境、不同操作系统之间的无缝迁移。可以让生物研究者把更多时间和精力集中在数据分析及探讨生物学问题上,而不必为这些软件安装及软件运行兼容性、环境依赖这些运维层面的技术而困扰,我们根据上述的镜像分别在个人电脑、厦门大学数据挖掘组的服务器上搭建了ubuntu14.04biodocker生物云计算平台进行了高通量测序数据的分析、挖掘。(5)利用平台我们基于松材线虫全基因组构建了全基因组分泌蛋白基因家族的基因序列、蛋白序列,并且进行了功能注释。结果表明,松材线虫有923个分泌蛋白基因,仅有93个基因得到注释,其余90%的分泌蛋白均为松材线虫所特有,值得我们更加关注和有待于更深入的研究。我们还对松材线虫基因组进行了SSR定位及引物开发,在松材线虫全基因组中搜索到12135个SSR,开发出1155个引物,我们又把这些信息转换成gff3格式文件,可以在基因组浏览器中更直观方便的观察这些SSR位置、类型、长度、引物等详细信息。(6)利用平台我们基于转录组的松材线虫、拟松材线虫分泌蛋白差异表达及分子进化研究。结果表明,松材线虫、拟松材线虫转录组共表达800个分泌蛋白,其中294个分泌蛋白为二者差异表达显著,并对这些蛋白进行了注释和分析。在松材线虫、拟松材线虫498个分泌蛋白同源基因中筛选出16个基因的Ka/Ks值显著大于1,并且达到了统计学上差异显著的水平,表明这些基因受到强烈的自然选择作用,为适应环境功能上发生了极显著的进化。(7)利用平台我们研究了基于转录组的松材线虫、拟松材线虫直系同源基因的研究及。结果表明,松材线虫、拟松材线虫与秀丽线虫、根结线虫同源基因及其差异表达,近缘物种上都得到的大量同源基因,为我们基因功能注释及研究提供可靠的信息,而在远缘物种拟南芥、毛果杨获得了同源基因为我们研究松材线虫与寄主植物的互作提供参考。(8)利用平台我们研究了基于宏基因组的松材线虫与其伴生菌的水平转移基因。结果表明,通过计算比较GC含量方法得到15个松材线虫与共生菌之间的水平转移基因,这些基因大部分都是具有重要生理生化功能,为研究松材线虫与其伴生菌协同进化提供了有力证据。
其他文献
实施更大规模减税降费,是党中央、国务院着眼大局、立足长远作出的重大决策部署,旨在用财政收入的“减法”来换取市场活力的“加法”和经济高质量发展的“乘法”,体现了党中
报纸
当前,东北亚地区政治与安全局势总体运行在和平与发展的国际环境中,但推动安全困局发酵的因素依旧存在。朝鲜半岛局势继续表现为紧张与缓和交替的冷战状态,中日关系出现僵局
目的:对比无痛胃镜检查和普通胃镜检查在临床检查中的应用效果。方法:将2016年1月至2018年7月期间在永昌县人民医院进行胃镜检查的110例疑似胃病的患者作为研究对象。将这110
目的:为进一步规范患者使用沙美特罗氟替卡松吸入剂提供参考。方法:采用问卷调查法,对126例成年支气管患者进行沙美特罗氟替卡松吸入剂使用情况的调查。结果:操作完全正确的
上海自贸区新片区在政策设计和规划建设时提出“二线高效管住”的要求。这是一项复杂的系统性工作,涉及海关、检验检疫、工商、税务、商务、口岸和外汇管理等多个行政部门,并
聚氨酯具有吸附力强、耐酸碱性强、耐磨耗等优点,已广泛应用在塑料、涂料、粘合剂等领域中,但其极强的绝缘性限制了它在导电方面的应用。用纳米导电填料对聚氨酯进行掺杂可以
结肠癌是常见的恶性肿瘤,在我国其发病率有上升趋势。近年来,从分子水平上研究结肠癌的发生、发展及预后,寻找更有效的治疗方法,已经成为热点。目前研究结果显示,与结肠癌发
风池穴历来就被视为治疗偏头痛的要穴。一般认为,单刺风池穴治疗偏头痛深刺效果更好,采用穴位注射、推拿等刺激手法,临床也取得了较好的疗效。目前在临床应用中最为普遍的方
众所周知,公务员考试录用制度是我国公务员制度的重要组成部分,对于我们国家的公务员队伍建设具有十分重要的影响。一个健全有效的公务员考试录用制度,有利于国家选拔符合职
升麻族植物在我国资源丰富、分布广泛、药用历史悠久。近年来,从升麻族植物中提取出了许多具有独特药理学活性的化合物,具有抗病毒、抗肿瘤、调节内分泌、抗骨质疏松、消炎等