面向DNA数据的压缩技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sjk29001431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着下一代测序(NGS)技术的发展,DNA数据迅速增长,这使得对DNA数据的存储、传输和分析都遇到严峻的挑战。对基因文件进行压缩对于解决该问题有着很好的前景,但现行基因库大多是使用通用的压缩算法进行压缩处理之后再进行存储,这无论在压缩率还是压缩速度方面均已经无法满足呈指数形式增长的基因数据。本文利用基因文件格式特点,在数据索引方面进行了深入研究,设计并实现了一个针对基因文件的分布式压缩系统,提高了基因数据的压缩率和压缩速度。  本文的主要工作和贡献如下:  (1)对于FASTQ格式文件,本文提出了一种基于字典树形索引结构的数据压缩算法,以提高序列部分的压缩效果。通过构建字典树结构来对序列部分进行查询匹配,相对于哈希表,字典树可以避免碰撞、实现部分匹配,同时能最大程度减少不必要的字符串比较操作,使其查询效率更高。对于字典树占用内存空间过大的问题,本文采用了取样索引的策略,从而有效地减少了内存占用空间,同时在查询过程中使用了懒惰匹配以提高匹配率;此外还根据序列部分对应的质量分值高低决定是否将该序列部分加入到索引结构中,使得字典树结构中的子串具有更高的被匹配概率。  (2)本文设计并实现了一个分布式基因文件压缩系统:DNA-DCS,并进行了压缩率、压缩速度和吞吐率方面的测评。在FASTQ文件的压缩方面,DNA-DCS的压缩率比GZip提升了50%左右,和DSRC相当;压缩速度比GZip提升了3~6倍,比DSRC提升了55%左右。随着压缩节点的增多,DNA-DCS在压缩率保持平稳的情况下,压缩速度呈接近线性增长;在吞吐率方面,单节点带宽达200MB/s,并基本可保持线性增长,表现出了良好的扩展性能。
其他文献
教学实验设备属于非标准设备,在Windows2000中必须通过编写设备驱动程序来访问.Windows2000支持WDM设备驱动模型,通过PnP管理器发出PnP命令引起设备状态改变以支持即插即用.
该文对信息隐藏的基本特征和基本模型进行了简单的介绍,总结了数字水印的几种主要算法,并比较它们各自的特点.选择具体水印算法应该结合水印体制的具体应用领域.一个好的水印
该文从铁路货运信息的综合应用出发,论述了为什么要进行货运数据整合,怎样进行数据整合.随着铁路运输管理信息系统TMIS建设的不断深入,数据的利用与传输就显得十分重要,呼和
目前,对入侵检测的研究正受到网络安全领域越来越多的重视.其中,研究改进入侵检测系统的检测引擎,对提高入侵检测系统的检测速度及其对未知入侵方式的检测能力具有重要意义.
在对新型产品的开发与研制中,常在立项研究和概念设计阶段就需要进行干涉检查、物性计算、机构分析、运动学和动力学分析、真实感显示等试验与测试。上述分析、试验、测试等过
为了解决武汉精伦电子股份有限公司公用多业务终端增值业务服务平台的安全问题,分析了证书服务系统的功能需求和性能需求,详细阐述了证书服务系统的体系结构及组成部分,分析
三维布料仿真及服装建模一直是计算机图形学中的一个难点问题,经过近三十年的发展仍然存在着多个亟待解决的技术问题。本论文围绕真实感布料的各向异性的拉伸属性,以及复杂场景
该文首先介绍了OSPF协议的背景和主要功能,重点总结了OSPFv3协议不同于OSPFv2协议的方面以及IPv6协议对OSPFv3协议的封装.接着,该文介绍了协议测试的分类,协议一致性测试的概
学位
视频监控系统是安全技术防范体系中的一个重要组成部分,是一种先进的、防范能力极强的综合系统.它可以通过镜头、云台等设备直接观看被监视场所的一切情况;可以把被监视场所