面向Gene Panel流程的并行加速技术的研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:appconfig
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的发展,基因数据的增长速度超过了摩尔定律,相对应的测序工具逐渐无法满足如此大规模的数据分析。目前计算机系统中CPU的核数不断增加,然而一些测序工具还是单线程,无法有效的利用多核,导致计算资源的浪费。而且现有一些软件由于前期设计开发的一些局限性,在面对日益增大的基因数据时,性能瓶颈显现,影响了整个流程的处理时间。  本文以Gene Panel流程为研究对象,通过对其数据分析流程的分析和评测,找出其中在整体处理时间中占比较大的处理工具,对这些程序的算法进行分析,利用并行优化方法并结合体系结构特征进行优化加速。这些工具不仅在Gene Panel中被使用,同时也在全基因组测序(WGS)和全外显子测序(WES)等测序流程中被采用,所以优化这些工具不仅能够应用到Gene Panel流程巾减少运行时间,同时也可以扩展到其他基因数据处理工具中,降低处理时间。本文的主要创新性工作包括:  (1).总结了基因序列分析工具的常用优化方法,深入分析了Gene Panel流程中常用的基因序列分析算法的并行方式。  (2).设计并实现了高性能基因序列分析库HCC,封装了基因序列处理中的常用数据结构,为用户提供简单易用的API,降低用户的编程难度。  (3).基于数据划分的方式实现了MarkDuplicate、IndelRealigner和Mpileup算法并行,在实现过程中根据数据分布和算法特征,有效地避免了由于数据倾斜导致的任务分配不均衡。  (4).详细分析了BWA-MEM的算法特征,并且采用向量化的方法对BWA-MEM中的SmithWaterman算法进行加速。  (5).基于高性能基因序列分析库设计并实现了并行版本Mutect算法,实现过程中消除了原有串行算法中一些冗余操作。
其他文献
该课题就是研究当前Internet上的主流路由协议——OSPF.OSPF的机制,OSPF的实现和OSPF在网络拓扑发现上的应用.在研究探讨了OSPF路由协议的理论和实现的同时,提出了路由协议服
本文全面地介绍了基于互联网的民航售票系统的分析与设计技术及内容。分析了浏览器/服务器(Browser/Server)模式的网络体系结构,并采用了目前先进的开发工具Java Server Pages(J
在信息爆炸的今天,如何及时、高效地从远程分布、自治、而且通常是异质的多个信息源集成需要的信息到客户端变得越来越重要。数据集成技术正是为了解决这一课题而提出的一种有
深度学习已经成为解决机器学习问题的重要手段。在图像分类,语音识别,文本翻译等领域,深度学习都取得了很好的效果。由于训练精确的模型需要具有大量参数的深度神经网络和海量的
高吞吐的特征检索对于大规模视觉特征检索意义重大。研究人员对R*树索引、局部敏感哈希算法、倒排索引方法等进行了大量的研究。但是,随着数据规模的增长,现有算法仍面临性能急
随着图象处理技术和计算机技术的不断发展,数字成象技术在医学中的应用日益广泛,如在X射线、计算机断层技术(CT)、核磁共振技术(MRI)、计算机放射成象技术(CR)、血管数字减影技
随着分布式计算的飞速发展,中间件技术在现代软件的开发中得到广泛应用.在CTl领域中通过使用CT Connect中间件,设计构建了实际的基于alcatel A4400交换机的呼叫中心平台的应
地理信息系统(Geographical Information System)是一种对空间信息进行收集、存储、分析和可视化表达的信息管理系统。WebGIS是当前GIS应用的热点问题和发展趋势,在交通、旅游
该文首先以企业在业务信息化不断发展的情况下,企业在内部业务流程管理中遇到的问题为背景,分析了企业对业务管理信息系统建设的需要的迫切性,对当今面向对象的开发技术和理
人类大脑是自然界中最复杂的信息处理系统之一,探索脑功能的奥秘是脑科学领域的一个研究热点。近年来,功能磁共振成像(functional MagneticResonance Imaging,fMRI)技术凭借非侵