基于GPU加速和参考基因组的DNA序列压缩方法

来源 :深圳大学 | 被引量 : 0次 | 上传用户:ck101newguy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的不断发展,DNA测序数据以指数级增长,数据传输和存储成为亟需解决的问题。研究人员致力于研究对DNA测序数据的压缩,主要分为基于参考基因组的和非参考基因组两类压缩技术,其中基于参考基因组的压缩技术牺牲了时间换取更好的压缩比。随着GPU设备和编程框架的普及,数据压缩技术结合高性能计算成为解决该问题的有效途径,本文提出基于GPU加速和参考基因组的DNA序列压缩方法GACcomp和gFQZip,主要工作如下:1、针对高通量测序FASTQ数据提出了基于参考基因组的压缩工具GACcomp,其中使用了基于GPU的算术编码。GACcomp将FASTQ数据分为元数据、DNA碱基序列和质量分数三部分单独处理。对元数据提出了模板链算法进行简化;对DNA碱基序列使用稀疏索引算法匹配到参考基因组。对简化后的元数据和DNA碱基序列匹配结果使用基于GPU的算术编码进行压缩。质量分数单独使用块排序压缩算法进行压缩,实验结果表明GACcomp的压缩和解压缩速度得到有效提升,综合性能较好。2、本文进一步针对FASTQ数据提出了GPU加速参考基因组匹配方法并结合更高效的GPU压缩编码方案实现压缩工具gFQZip。与GACcomp类似,gFQZip同样将FASTQ数据分为三部分单独处理,不同的是gFQZip在GPU中进一步实现了基于稀疏索引算法的DNA序列匹配算法,更快实现基于参考基因组的碱基匹配,对于所有的中间文件使用基于GPU的Burrow-Wheeler-Transform(BWT)、Move-to-front-Transform(MTFT)和Range encoding进行编码。实验结果表明,gFQZip使用合理的内存空间获得了更高的压缩比,与其它同类型压缩方法对比,压缩速度最高提高达16.8倍。本文提出了基于GPU加速和参考基因组的高通量DNA测序数据压缩方法,新方法充分结合了理论和硬件方面优势,在保证压缩比的同时有效提高了压缩和解压速度,这些方法可以在一定程度上帮助缓解高通量DNA测序数据的传输和存储所带来的压力,为后续相关研究提供经验和借鉴。
其他文献
本地独立董事由于天然的地理优势,能够获取更多有关公司和高管的软性信息,更有利于其参与公司治理,履行独立董事职责。但是另一方面由于本地独立董事和上市公司高管处于同一
目的:非整倍体指细胞内染色体数目出现异常,有丝分裂过程中纺锤体检验点功能失调等都可导致非整倍体的产生。大多数肿瘤中都存在非整倍体现象。临床上非整倍体程度高的肿瘤预
2016年4月,杭州市民潘洪斌被法院判决驳回其诉讼请求后,便针对《杭州市交通管理条例》向全国人大常委会提出了合法性审查建议,全国人大常委会在审查后与杭州市人大常委会进行了沟通,后者已于2017年7月对违法内容作出修改。但是直至今日,潘洪斌的权利依旧未能得到救济。这一案件显示出我国现存集中、抽象式的审查模式在规范和现实的运用层面存在着巨大疏离。鉴于此,多位学者建议构建以人民法院为申请主体的被动审查程
准确的人体上表皮(Human Epithelial-2,HEp-2)细胞图像分类在许多自身免疫性疾病的诊断和后续治疗中起着重要的作用。例如,系统性风湿性疾病、多发性硬化症、药物性红斑狼疮,
近些年来,风电发展如此迅速,随着系统规模的不断扩大以及机组单机容量的增加,衍生而来的风力发电问题也日益突出。当发生电网电压跌落时,其将对并网运行的风力发电机组产生很
电力负荷预测是电力系统中不可缺少的重要环节,对于电力系统的稳定运行、经济节能有着巨大作用。新形势下,随着风电并网容量的逐年上升,风力发电的波动性和间歇性对电力系统
随着无人驾驶、人脸检测、智能视频监控等应用出现,亟待快速、准确的物体检测系统。物体检测系统不仅要求能识别图像中物体类别,还要求能够画出框体,用于定位物体的位置。这
U-2Nb合金是核工业中重要的核结构材料,以其高密度高强度的优势在辐射屏蔽等方面广泛应用。因目前对其相变过程尚不明确,对其结构与力学性能的关联缺乏量化分析,导致对该合金
在全球经济一体化大环境下,移动公司需要通过提高管理水平的方式以进一步扩张市场,从而达到增加企业效益的目的。移动公司在市场竞争中,一方面要不断地响应客户的需求,满足客
目的:由于休眠体的存在和配子体导致的无症状传播,间日疟原虫已成为疟疾消除的重要障碍之一。全球50%以上的间日疟原虫感染负担发生在东南亚地区,特别是大湄公河次区域(the G