论文部分内容阅读
随着测序技术的不断发展,DNA测序数据以指数级增长,数据传输和存储成为亟需解决的问题。研究人员致力于研究对DNA测序数据的压缩,主要分为基于参考基因组的和非参考基因组两类压缩技术,其中基于参考基因组的压缩技术牺牲了时间换取更好的压缩比。随着GPU设备和编程框架的普及,数据压缩技术结合高性能计算成为解决该问题的有效途径,本文提出基于GPU加速和参考基因组的DNA序列压缩方法GACcomp和gFQZip,主要工作如下:1、针对高通量测序FASTQ数据提出了基于参考基因组的压缩工具GACcomp,其中使用了基于GPU的算术编码。GACcomp将FASTQ数据分为元数据、DNA碱基序列和质量分数三部分单独处理。对元数据提出了模板链算法进行简化;对DNA碱基序列使用稀疏索引算法匹配到参考基因组。对简化后的元数据和DNA碱基序列匹配结果使用基于GPU的算术编码进行压缩。质量分数单独使用块排序压缩算法进行压缩,实验结果表明GACcomp的压缩和解压缩速度得到有效提升,综合性能较好。2、本文进一步针对FASTQ数据提出了GPU加速参考基因组匹配方法并结合更高效的GPU压缩编码方案实现压缩工具gFQZip。与GACcomp类似,gFQZip同样将FASTQ数据分为三部分单独处理,不同的是gFQZip在GPU中进一步实现了基于稀疏索引算法的DNA序列匹配算法,更快实现基于参考基因组的碱基匹配,对于所有的中间文件使用基于GPU的Burrow-Wheeler-Transform(BWT)、Move-to-front-Transform(MTFT)和Range encoding进行编码。实验结果表明,gFQZip使用合理的内存空间获得了更高的压缩比,与其它同类型压缩方法对比,压缩速度最高提高达16.8倍。本文提出了基于GPU加速和参考基因组的高通量DNA测序数据压缩方法,新方法充分结合了理论和硬件方面优势,在保证压缩比的同时有效提高了压缩和解压速度,这些方法可以在一定程度上帮助缓解高通量DNA测序数据的传输和存储所带来的压力,为后续相关研究提供经验和借鉴。