一种GATK基因分析软件并行加速方案的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gxwy1305
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组测序大数据分析是精准医疗临床治疗的基础,精准医疗是一种通过基因数据分析,从而精确寻找到疾病的原因和治疗方法的医疗模式。GATK(Genome Analysis Toolkit)是基因组测序大数据分析中最常用的软件之一,是几乎所有类型的基因数据分析的必备分析工具。然而,GATK的运行速度极为缓慢,极大地限制了其在临床医疗实践中的作用。本文主要针对GATK运行过慢的问题,对GATK进行加速研究,并基于Spark分布式框架和硬件加速技术提出了一个分布式硬件加速的GATK并行加速方案。本文的主要工作包括:第一,针对GATK单机运行模式效率低下的问题,设计并实现了一个可扩展的分布式GATK并行化加速方案,相比较同类分布式加速方案,本方案针对分布式应用中经常出现数据倾斜问题进行了深入研究和探讨。通过切分染色体解决了分布式计算框架中出现的负载均衡问题。第二,对GATK中耗时最长的MuTect2工具进行了研究和分析,提出了基于硬件加速的MuTect2加速方案。相比较其他MuTect2加速方案,本方案对不同类型的基因测序数据进行了适配,均达到了较好的加速效果。通过减少MuTect2耗时降低了整个GATK的运行耗时。本文提出的方案已经成功商业化,用于部分基因测序公司的测序产品中。实验结果表明:与原版GATK相比,本文提出的加速方案在保证结果正确性的前提下,加速性能卓越,并且能够通过扩展分布式集群的方式进一步减少GATK的运行耗时。
其他文献
第一部分ARRDC3与子痫前期相关性的研究目的1.研究子痫前期胎盘组织中ARRDC3表达情况及缺氧对滋养细胞ARRDC3表达的影响。2.研究缺氧条件下ARRDC3表达对滋养细胞侵袭及血管形
在最近的几十年中,润湿性在胶体界面学术研究及工业领域中一直备受关注。其中又以超疏水/超双疏材料因其在防结冰、防腐蚀、抗粘附、减阻以及微流控、油水分离、热传递等领域巨大的应用前景最引人注目。随着工业上对硅橡胶的需求和生产量的不断增长,日常生活及科研产生的边角料、废旧残次硅树脂制品正在急速增加。由于缺乏合适的再利用手段,硅橡胶的环境污染及对原材料的浪费问题迫在眉睫。本文通过对废旧硅橡胶管的煅烧,将煅烧
Synechocystis sp. PCC 6803是一种良好的研究光合作用的模式生物。slr1122全长753bp,编码一个有250个氨基酸的未知蛋白。它与左右相邻的基因转录方向相反,因此它的缺失不会
目的:研究年轻子宫内膜不典型增生患者保留生育功能的治疗方法,如单纯口服孕激素治疗、宫腔镜下病灶切除后孕激素辅助治疗、左炔诺孕酮宫内缓释系统联合孕激素或GnRH-a治疗等,从完全缓解率、复发率、妊娠率、分娩率、进展率来评估保守治疗的效果。方法:运用计算机检索工具,以“子宫内膜不典型增生”、“保留生育功能”及其同义词为关键词,检索Pubmed数据库、Cochrane Library、万方医学数据库、中
作为一种环境友好型交通工具,电动汽车在减少人类对传统化石能源的依赖以及温室气体排放方面有着传统汽车不可比拟的优势。但是随着电动汽车普及率的不断提高,大规模电动汽车
高职教育是在我国高等教育大发展的浪潮中崛起的一个新的教育类型,是职业技术教育的高等阶段,是高等教育的重要组成部分。因此,高职的高等数学教学内容必须充分体现“以应用
近年来,高职院校为解决生源问题,纷纷进行多元化招生。面对不同的生源情况,传统的统一教学模式已不能适应。江苏财经职业技术学院坚持贯彻"以学生为中心"的教学设计理念,从人
知识梳理  1. 知识结构  2. 几个基本概念  (1)质点:在研究问题中,物体的形状、大小属无关因素或次要因素,把物体抽象地看成是只具有质量的点, 这个物理模型叫质点.  (2)位移:是用来描述物体的位置改变的物理量.它是由物体的初位置指向末位置的有向线段,是矢量.  (3)平均速度:物体在某Δt时间内的平均速度指的是物体在Δt时间内所发生的位移Δs与发生这段位移所用时间Δt的比值,即=.  
针对φ2.4m×13m水泥磨在生产中存在的问题,分析原因,并提出了解决措施,对此磨机进行改造。
【摘要】公共心理学是高职高专院校师范专业开设的公共必修课,教学现状不乐观。此文采用半结构式问卷对预开设和已经开设过公共心理学的高职高专学生进行问卷调查与分析,得出结论:公共心理学教学需在教学内容、教学过程、考核方式等进行改革,使得公共心理学教学符合大数据时代学生发展的需要。  【中图分类号】G712 【文献标识码】A 【文章编号】2095-3089(2018)02-0036-02  一、问题提出