基于GPU加速的BWA-MEM核心算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jsyzcqg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因技术的进步,对医药研发、个体健康等诸多领域具有深远影响,因此也催生了大量重要相关技术,基因比对就是其中之一。作为基因工程技术与计算机技术的结合领域,基因比对技术的主要通过计算设备,将大量无序基因序列匹配到标准基因组上,为分析生物特征提供关键数据。这对研究生物个体、种族、群落的基因特性具有重要意义,对探索未知生物信息具有深远影响。本文以Illumina公司的基因测序解决方案为基本标准,以100bp-200bp长度的碱基序列为对象,基于BWA-MEM算法和GPU异构计算平台展开研究。随着检测技术的提升,个体基因数据规模上升,这使比对算法对时效性有了更高的要求。由于传统算法难以满足个人快速检测要求,制约了相关技术的进一步应用落地,因此本文提出基于GPU的并行化加速方案。制约比对速度的主要矛盾在两方面:CPU计算能力的局限性和BWA-MEM算法固有的冗余性。围绕这两点问题,本文通过分析GPU编程中涉及到的软硬件结构,提出算法优化逻辑及实现并行方案。通过CPU+GPU混合异构编程,在任务间及任务内两个角度,对算法进行并行加速,实现效率提升。完成异构编程的工作主要有两方面:首先,在inter task维度实现任务间并行。根据基因序列的一致性原则,通过提升并行处理的任务规模,减少CPU与GPU之间的访存次数,为保证各任务间合并访存,通过设计流处理方案和扁平化数据结构,实现不同计算资源对数据的合并存取操作。同时,在intratask维度实现任务内并行。任务内并行主要分为两部分:精确比对算法(exact match algorithm)以及非精确比对算法(inexact match algorithm)。精确比对算法的核心是SMEM算法,优化上一方面通过算法级优化降低算法复杂度,另一方面通过细粒度并行对提升实现效率。非精确比对算法的核心是S-W算法,通过异步启动的方式实现warp内算法并行,合理利用高速访存以提升算法性能。本文通过任务间+任务内的方式设计了 BWA-MEM算法的并行实现模型。一方面研究GPU设备上的异构编程,另一方面通过统一计算架构(CUDA)完成软件设计。通过硬件、软件资源的彼此兼顾,有效提升了算法的比对性能。最后通过实验验证并行加速效果显著。
其他文献
半导体芯片制造业的特征尺寸不断缩小,已经接近传统硅基材料的物理极限。二维材料由于其原子层厚度而备受关注,二硒化钼由于其独特的物理化学特性从二维材料家族中脱颖而出,通过掺杂对二维材料的改性及应用是本领域热点研究工作之一。本文采用原位共生长化学气相沉积法制备掺Co的Mo Se_2样品,由于ⅦB到ⅡB族元素掺入到过渡金属硫族化合物中面临生长工艺难以调节的现象,对掺CoMoSe_2的工艺优化和机理研究显得
本篇论文利用上海天文台65米天马望远镜、紫金山天文台德令哈观测站13.7米毫米波望远镜、日本国立天文台野边山望远镜对最新的硅酸盐碳星样本进行富氧分子的搜寻,并对探测到
金属有机骨架(MOFs)是一类功能性多孔材料。由于其可控形态,丰富的孔隙,高比表面积和多功能性,已广泛应用于各种领域,如催化,分离和生物医学工程等。近年来,在电催化剂和电化学传感器方面成为研究的热门课题。但是,由于单相MOFs导电性差,其固有的较弱电子传导性和电化学稳定性,阻碍了它的发展,解决这些问题的有效策略依赖于MOFs的功能化。对MOFs进行功能化的方法主要包括:修饰掺杂剂,在框架内原位捕获
伊犁河谷天然草地资源丰富,但水土流失总面积、侵蚀强烈以上等级的面积日趋扩大,造成草地和土壤逐渐退化,严重威胁到农业生产安全以及西部可持续发展战略的实施。为此,亟需从
Ti02不同晶面的暴露比对其光催化活性发挥着至关重要的作用,有研究表明,{001}、{010}等晶面具有高活性,其暴露比对光催化活性的提高有着重要的影响。通常,F-、SO42-等能够用于调节晶面的暴露,但是在制备过程中TiO2晶面的暴露比不能很好地控制,因而对活性晶面的精准调控难以实现。同时传统的制备方法通常以有毒且昂贵的无机离子试剂和有机溶剂做调控剂,因此近年来开始以绿色无毒的生物分子做为调控剂
表面等离子体共振(Surface Plasmon Resonance,SPR)传感器具有高灵敏度、无需标记、可在线实时检测等优点,在医疗检测、食品安全、药物筛选、环境检测等诸多领域都被广泛的应用
湿地是陆地生态系统中重要的土壤碳库,但是随着人类的发展需求,很多湿地被转化为农田,这使得自然环境乃至人类损失了很多环境效益,例如湿地以及农田对全球变暖的反馈,以及对温室效应的调节等。因此本文着眼于重要国际性河流——图们江流域,利用野外便携式温室气体监测仪展开了对自然湿地、恢复湿地(芦苇湿地)、水稻田、旱田这四种既有用地类型在生长季及后期温室气体排放现状及其影响因素的研究,结论如下:(1)湿地与农田
目的评价立体定向伽玛射线体部治疗系统(简称体部伽玛刀)治疗早期肺癌临床疗效。方法我们收集2007年至2017年在我院进行体部伽玛刀治疗的早期肺癌资料,经过整理入组资料齐全、诊断为早期肺癌(T1-2N0M0)患者60例,其中IA期32例,IB期28例。采集患者的姓名、年龄、KPS评分、病变部位、病理类型、分期、是否伴有心肺功能疾病、治疗时间、剂量与剂量分割模式等基本信息;收集患者治疗前、中、后血常规
与传统混凝土相比,掺合料混凝土的碳化过程表现出巨大的差异,尤其是早期碳化速度极快;传统的混凝土碳化深度计算模型是基于对普通硅酸盐混凝土的碳化过程分析而建立的,其并不
目的:本文旨在通过数据挖掘技术(DM)来探究中医对多发性骨髓瘤(MM)的遣方用药规律,及其证型分布特征,发现证-方-药之间所隐含的相互有关联的重要内容亦或挖掘新方,以期结合中医临床经验达到更好的指导临床用药。方法:以多发性骨髓瘤(MM)、中医以及中医药为主题,在中国知网(CNKI)、万方数据知识服务平台上检索1998~2019年期间有关中医药治疗MM经验的文献。根据资料库的不同特征将主题词联合自由