基于Spark的二代测序数据分析流程的加速研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lhfheihei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序中测序技术的不断进步,测序数据量增长迅速,原有的基因测序数据分析流程逐渐不能满足这种快速增长的数据需求;而另一方面,计算机领域中大数据技术的持续发展,为处理海量数据提供了稳定、高效的计算框架。在可以预见的未来,人类基因测序数据分析流程必将和大数据的发展不断融合。  本文以基因测序中的二代测序数据分析流程GATK为基础,通过对其流程的原理分析和各个环节的测试,找出阻碍整个流程高效运行的瓶颈。针对整个流程中存在的不同瓶颈,我们提出了使用大数据计算框架Spark作为加速整个流程的基础;通过详细学习和分析GATK流程中的各个环节的算法原理和具体实现,我们对不同环节提出不同的改写方法。最终,通过对整个流程的改写,在保证正确性的前提下,整个流程的运行速度和扩展性有了极大提升。  本文的主要工作和贡献如下:  (1)提出了基于大数据计算框架Spark来加速二代测序数据分析流程。通过对二代测序数据分析流程GATK的测试和原理分析,确定其瓶颈所在,然后针对其瓶颈问题提出了使用Spark来加速的方法。  (2)数据预处理算法的改写。数据预处理是GATK流程的开始部分,由于在原有流程中使用了串行算法,耗时较多。通过对算法的并行化改写,极大的提高了其运行速度和扩展性。  (3) Scatter-Gather操作的并行优化。GATK流程的后续步骤中使用网格计算的方法实现了并行加速;但是,由于其每个步骤都需要不断的切割合并(Scatter-Gather)文件,造成了不必要的浪费。通过对Scatter-Gather操作的并行优化,消除了其瓶颈问题。
其他文献
移动自组织网络(Mobile Ad Hoc Networks, MANETs)是一种由若干无线通信功能的移动节点构成的临时性网络,无需依赖固定基站便可即时组网、随时通信,它可广泛应用于军事通信、
处理器设计往往需要同时兼顾到性能和功/能耗指标,而这些设计指标之间又往往存在着相互冲突的关系。因此处理器结构设计优化一直以来都是处理器设计过程中的重要问题和难题。
互联网的惊人增长和成功已经改变了传统基本服务如银行、交通运输、医药、教育和国防的运作方式。现在,它们正逐步被更便宜、更有效的基于互联网的应用取代。在当今时代,世界
随着当前互联网的发展和变化,人们对数据内容本身的需求变得越来越强烈。人们不关心内容存在哪里,而更关心内容的有无以及如何快速地存取。内容中心网络从当前网络的这一变化出
计算机网络是20世纪最伟大的发明之一,它的出现为经济、社会的发展注入了强劲的动力,但随之而来的还有网络的安全和管理的问题。使用网络监控技术来监测网络状态并结合一定的
近年来,蜂窝移动网络逐渐从2G/2.5G系统演进为3G系统,在一些发达国家和地区,已经开始部署LTE商用网络。尽管系统的更新换代带来了性能上的快速提升,但是蜂窝移动网络仍然难以
在计算机系统中,内存的重要性不言而喻。随着工艺特征尺寸不断减小,动态随机访问存储器(Dynamic Random Access Memory,DRAM)作为传统的内存技术,已面临着功耗、可靠性和制造工艺
电动汽车被普遍认为是未来汽车发展的主要方向,我国把发展电动汽车作为培育战略性新兴产业的重点。为了更好的掌握电动汽车行业的发展,也为了全面汇总我国在电动汽车领域的发
生物大分子三维结构的研究对于了解其生物学功能和机理具有非常重要的意义。当前冷冻电镜技术,特别是单颗粒三维重构技术已经成为解析生物大分子三维结构的第一选择手段。单颗
VoIP业务作为伴随互联网的发展而出现的典型应用之一,以其廉价的特性迅速在语音业务领域占据了重要地位。结合P2P技术的VoIP系统,由于具有良好的可扩展性及高可用性,已经成为