论文部分内容阅读
高通量DNA测序技术的出现大大降低了全基因测序的成本,从而推动了基因产业的发展。原始测序数据的增长速度已远远超过了存储成本的下降速度,如何存储庞大的测序数据是当前亟需解决的问题。使用有效的压缩方法存储DNA测序数据,可以有效减少存储空间并降低传输带宽的占用率。本文首先介绍了当前DNA测序数据的研究现状与背景,包括测序技术的发展、DNA测序数据存储格式、DNA测序数据的压缩技术的发展以及现有的相关工作。其次,本文提出了两种新型压缩方法LW-FQZip 2和KMCompress,并与其他最新的DNA测序数据压缩工具进行比较证明方法的有效性,具体如下:LW-FQZip 2是在LW-FQZip 1上改进的基于参考基因组的无损压缩方法,该方法采用了并行轻量级匹配模型将高通量测序短读数据匹配到参考基因组,再利用部分匹配预测(Prediction by Partial Matching,PPM)模型和算术编码对匹配结果和其他数据进行压缩,从而获得更高效的编码和并行计算性能。本文在各种测序平台产生的短读数据和长读数据进行实验测试,结果表明,LW-FQZip 2能够在合理的时间和空间成本下实现理想的压缩比。KMCompress是一种非参考基因组的无损压缩方法。该方法首先对输入数据进行快速重组,将相似的短读与长读数据进行聚类,然后采用有限上下文预测(Finite-context prediction)模型和算术编码通过对测序数据进行概率估计并编码,有效降低需要记录的信息熵。KMCompress在一定程度上克服了基于参考基因组的压缩方法的缺点,即不需要依赖外部参考基因组,取得较好的综合性能。本研究针对FASTQ文件提出新型的压缩方法,新算法在压缩比和速度上取得了较好的平衡,有助于缓解高通量DNA测序数据带来的存储和传输压力,也可为后续相关研究提供一定的借鉴作用。