面向云平台的生物信息数据高效存储压缩研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:sdlnf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物测序技术是分子生物学研究中的基础技术,用来测定生物基因序列组成。测序工程中产生海量的生物数据,数据规模呈指数级地快速增长。如何存储,处理和分析这些生物数据是大数据时代生物学家面临的主要问题。数据压缩技术可以有效缩减数据存储量,高效利用现有存储设备和带宽资源存储共享数据,有效地缓解数据增长带来的压力。DNA序列是生物医学研究的主要数据对象,序列中存在大量因自我复制和基因突变行为产生的直接重复或近似重复的基因片段,传统压缩方法对其压缩效果不佳。高性能的DNA序列压缩方法是解决生物数据高效存储的有效方法,具有重要的研究意义。针对DNA序列的专用压缩方法尚处于研究探索阶段,早期的研究中DNA序列压缩算法利用文本压缩处理的思想缩减冗余数据,相比通用压缩方法取得了较高的压缩率。随着高通量测序技术的发展,为探究不同个体基因的差异性对已测序物种进行了重测序工程,产生了很多相似个体的数据集合。集合中不仅存在单个序列内部的横向冗余信息,还存在多个序列个体间的公共冗余信息,近期的DNA序列压缩多是以寻找多个序列间的差异信息来缩减数据量。本文以传统压缩理论技术为基础,对当前DNA序列压缩技术研究学习并对其作出分类总结,利用序列对比思想对现有压缩方法进行优化改进,设计出一个对DNA序列集合高效压缩处理的方法Gcompress(Genome compress)。该方法设计了两种压缩模式,一种是针对单序列个体内部局部相似性数据缩减;另一种是对不同序列个体间相似数据缩减。两种模式利用了字典压缩的思想并结合Huffman编码方法有效缩减序列间的冗余数据。本文将新方法与通用压缩软件gzip和现有优秀DNA序列压缩方法的压缩性能进行比较。实验结果表明,单序列压缩模式与gzip相比,能在低时间消耗的同时取得较高的压缩率;多序列压缩模式与对比算法相比在保证优秀的压缩率的同时,有效提升了压缩速度。另外,本文利用Map/Reduce模型结合单序列压缩模式实现了基于分块思想的分布式压缩方法,利用数据的局部相关性有效缩减冗余信息,解决单点处理大序列文件压力大的问题,有效利用生物信息处理云平台的计算资源为数据的高效存储和传输共享提供支持。
其他文献
调和分析是现代数学中的核心研究领域之一,其思想和方法几乎渗透到数学的各个分支.分数次积分算子具有深刻的偏微分方程背景,也是调和分析中的一种重要算子.近年来,关于分数
自德国科学家马克斯?普朗克在二十世纪初第一次提出光量子假说,量子力学距今已有百年历史。随着对量子力学不断的了解和研究,人们可以发现量子力学中的一些基本原理以及特有
有限集交族是组合数学的一个重要分支,研究的是[n]={1,2,…,n}的子集族在满足特定性质下,其元素个数的上界问题.对有限集交族的研究方法主要有关联矩阵法,几何半格法,多重线
本文首先概述了估计函数的发展经历,介绍了已有的估计函数相关理论,及其在单参数时间序列中的应用,引进估计量的概念。近年来很多学者的兴趣集中在经济金融领域的估计函数理
进料加速器是卧式螺旋离心机的一个关键部件,主要功能是将进料管中的物料输送至离心机转鼓内。但某厂在使用LW350卧式螺旋离心机处理铜矿浆物料时,由于固体颗粒的撞击造成了加速器内壁严重磨损,导致结构失效。为此,本文针对加速器内流体运动状态及流动特性进行了研究,分析加速器的磨损原因,并提出了加速器优化设计方案。设计并搭建了加速器高频图像实验系统,主要包含加速器实验主机、高频时序同步系统、流场荧光示踪系统
染色质重塑因子是一类重要的表观遗传学调控因子,它们依赖ATP水解释放的能量,以蛋白质复合体的形式对染色质结构动态调控。INO80(Inositol auxotroph 80)是其中一类因子。IN0
传统的对长杆稳定性的研究没有考虑初始缺陷的影响,本文在传统研究的基础之上重新考虑初始缺陷这一因素对长杆稳定性的影响。对此分别按照传统研究方法和考虑初始缺陷时对曲
本文利用三维变分方法对热带风暴、飑线和层状云降水等多种不同类型的降水过程进行风场反演,并与双多普勒雷达风场反演结果、风廓线雷达探测结果及原始径向速度等数据进行对
青藏高原地形复杂,缺乏地面观测站点,卫星遥感的手段成为获取高原降水信息的主要方式。为了准确获取青藏高原地区降水的时空分布信息,本文在分析了几种降水测量技术在青藏高
本文对几类特殊重要的自相似网络的谱性质及其在生成树、随机游走或陷阱问题中的应用进行了研究。大量的文献表明网络的特征谱与网络的拓扑性质密切相关,而生成树、随机游走