高通量DNA测序数据的并行快速压缩方法

来源 :深圳大学 | 被引量 : 0次 | 上传用户:baoze65833
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量DNA测序技术的出现大大降低了全基因测序的成本,从而推动了基因产业的发展。原始测序数据的增长速度已远远超过了存储成本的下降速度,如何存储庞大的测序数据是当前亟需解决的问题。使用有效的压缩方法存储DNA测序数据,可以有效减少存储空间并降低传输带宽的占用率。本文首先介绍了当前DNA测序数据的研究现状与背景,包括测序技术的发展、DNA测序数据存储格式、DNA测序数据的压缩技术的发展以及现有的相关工作。其次,本文提出了两种新型压缩方法LW-FQZip 2和KMCompress,并与其他最新的DNA测序数据压缩工具进行比较证明方法的有效性,具体如下:LW-FQZip 2是在LW-FQZip 1上改进的基于参考基因组的无损压缩方法,该方法采用了并行轻量级匹配模型将高通量测序短读数据匹配到参考基因组,再利用部分匹配预测(Prediction by Partial Matching,PPM)模型和算术编码对匹配结果和其他数据进行压缩,从而获得更高效的编码和并行计算性能。本文在各种测序平台产生的短读数据和长读数据进行实验测试,结果表明,LW-FQZip 2能够在合理的时间和空间成本下实现理想的压缩比。KMCompress是一种非参考基因组的无损压缩方法。该方法首先对输入数据进行快速重组,将相似的短读与长读数据进行聚类,然后采用有限上下文预测(Finite-context prediction)模型和算术编码通过对测序数据进行概率估计并编码,有效降低需要记录的信息熵。KMCompress在一定程度上克服了基于参考基因组的压缩方法的缺点,即不需要依赖外部参考基因组,取得较好的综合性能。本研究针对FASTQ文件提出新型的压缩方法,新算法在压缩比和速度上取得了较好的平衡,有助于缓解高通量DNA测序数据带来的存储和传输压力,也可为后续相关研究提供一定的借鉴作用。
其他文献
北京新机场线是连接首都第二国际机场与中心城的轨道交通专线,其服务对象、功能需求、运营目标与普通地铁线路差异巨大。基于对公交系统运营要素的认识,站在城市轨道交通运营
通过白纱布遮荫模拟不同光生境条件(透光率分别为100%、68.2%、35.4%和16.7%),研究了光强因子对烟草幼苗形态和生理指标的影响.结果表明:随相对光强的减弱,幼苗高度增加,茎粗、干鲜比、叶片
分析了《死于威尼斯》主人公阿申巴赫出游前后的形象变化,认为小说作者是借助神话隐喻,通过塑造阿申巴赫这个人物,表达了自己对人的理性与原欲的思考。阿申巴赫的故事,暗示了
陈列是观众与藏品沟通的桥梁,陈列设计是陈列的主体。本文通过分析国内外博物馆陈列设计的成功案例,以及本人在中国地质博物馆岩矿厅陈列设计中所做的有益尝试,得出多种手段
桔梗为桔梗科植物桔梗Platycodon grandiflorum(Jacq.)A. DC.的干燥根,为中国药典收载品种,具有宣肺、利咽、祛痰、排脓之功效,主要用于咳嗽痰多,胸闷不畅,咽痛,音哑,肺痈吐脓,疮疡脓
自从上世纪90年代中期以来,我国的瓶装水需求迅猛增长,瓶装水行业得到了迅速发展,娃哈哈、乐百氏和农夫山泉成为瓶装水行业的三大巨头,随着像可口可乐和达能这样的跨国企业的加入
<正>目的脑梗死能诱发自身内源性神经干/前体细胞(NSPCs)的增殖,这些增殖的细胞迁移到梗死灶周边(IBZ)并分化为神经元和胶质细胞。但是,大部分增殖的内源性NSPCs会在数天内凋
目的主动固定电极导线广泛应用于临床,电极导线脱位是心脏起搏器置人术的严重并发症,文中旨在探讨主动固定电极导线脱位的临床特点及处理措施。方法回顾性分析1341例起搏器植入
在区域经济一体化的大趋势下,本文通过构建中原城市群竞争力的指标体系,在得出中原城市群竞争力得分及排序的基础上,综合考虑各种因素指出郑汴一体化势在必行。并在此基础上
当前部分学生心理存在着不同程度的心理问题,迫切需要及时科学的心理健康教育或个别心理辅导。英语是一门工具性学科,教师在进行英语教学过程中注意利用语言这个工具来激发学