差分压缩基础理论和优化研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jinhui4620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和物联网技术的发展,全球数据的数量正在以惊人的速度大幅增长,而且种类也越来越多,这些数据涉及人类生活的各个方面,包括物流业、零售业、医疗卫生、机场安全、交通运输,环境检测等,通过挖掘和分析这些数据,人们可以发现隐藏的洞见,揭示自然的奥秘,为世界带来巨大的好处。所以,对海量数据的相关研究已经成为学术界和工业界关注的重点,甚至升级为国家级发展战略,如欧洲的“e-Europe”、美国的“智慧地球”,以及我国的“感知中国”等。然而,在对这些海量数据进行处理并产生价值之前,需要对其进行暂时或长久的存储,可以说数据存储是基础工序,也是保存原始数据、中间结果和最终结果的大本营。不幸的是,目前的存储容量增长并没有像数据生产那样取得进展,这导致海量数据中的绝大多数都可能被丢弃。虽然存储设备的设备的售价一直在下降,但其要与指数级增长的数据形成速度竞争,是非常困难的。因此,存储理论和技术的进步和创新是克服海量数据信息丢失的关键途径。海量数据通常来源于多个异构感知设备阵列,是对现实世界状态的实时刻画。由于设备存在重复采样,造成大量冗余数据,进一步增加了对存储空间和网络流量的需求。差分压缩作为一项无损数据压缩技术,能更加智能化地对具有公共性的文件实施更为高效的压缩。具体地说,差分压缩通过找出数据间的匹配片段,并把它编辑成一个数据较之另一数据的增量编码序列,实现对数据的压缩,节省存储数据的空间和网络传输带宽。本文围绕差分压缩的基础理论和优化开展研究,主要的研究工作以及创新性成果简述如下:1、目前,差分压缩的相关研究主要集中在算法开发和技术应用,其基础理论方面的研究相对缺失,本文首先从差分压缩的概念入手,定义了增量编码序列,从构建方式考虑,提出了参考文件构造模型和空文件构造模型。接着,分别从重构空间、时空关系和对象类型对差分压缩进行分类,并由此引出了差分压缩的十二种可研究类型。最后,给出了由COPY和ADD操作编辑的差分压缩的定义和增量编码序列的两种表达方式。差分压缩的基础理论研究对后续工作具有一定的指导意义。2、针对文件间公共性检测时由于共享片段遗漏导致检测效果不理想的问题,首先,定义了共享片段集合,并根据其位置将共享片段分成相离、包含和重叠关系。然后,提出用所有分离的共享片段总长度评估文件间的公共性,并设计了共享片段集合构建(Sharing Fragment Set,SFS)算法,通过寻找级联序列并将其分离化得到一个较优的共享片段集合。理论分析和实验仿真表明,SFS算法生成的共享片段集合包含所有相离的共享片段,其公共性测量结果比贪心字符串匹配(Greedy String Tiling,GST)算法和Greedy算法高出约10%和4%,为差分压缩的实施提供了先决条件。3、目前的差分压缩算法要么仅关注较长的匹配片段而忽略了较短的匹配片段,要么只追求时间和空间复杂度直接丢弃匹配片段,导致其在节省存储空间方面表现不佳。针对以上弊端,本文从COPY和ADD操作在计算机系统中的存储方式考虑,首先,定义了差分压缩的一个新的成本模型,提出用匹配片段总长度和匹配片段数量两个指标来评估增量编码序列。然后,从匹配片段总长度最大化和总数量最小化考虑,构建了复制片段总长度最大化(Maximal Total Length of Copied Fragments,MTLC)算法,通过识别每个偏移处的最长匹配片段、对重叠部分进行合理拆分和用COPY和ADD操作进行编辑,得到一个增量编码序列。理论分析和实验结果表明,相比于Greedy和Hsadelta算法生成的增量编码序列,MTLC算法生成的增量编码序列实现了匹配片段总长度最大化,同时包含的COPY操作最少。4、针对增量编码序列不够高效和紧实的缺陷,沿用之前定义的成本模型,首先,提出用所有COPY和ADD操作的累加成本来评估增量编码序列。其次,根据包含的ADD操作的数量和位置将子序列分成四种类型,并推导出对应的合并规则。然后,采用“分而治之”的思想,设计了增量编码序列成本最小化(Minimum Delta Encoding Cost,MDC)算法,通过对增量编码序列的合理分解与合并,完成了增量编码序列的修正。理论分析和实验结果表明,经过MDC算法修正的增量编码序列实现了累加成本的最小化,并且包含的操作数量也更少,在节省存储空间方面更具有优势。同时,这种增量序列修正方法是一种通用的方法,可以后缀在任何COPY/ADD类差分压缩算法之后,实现二次压缩,进一步提高计算机系统存储数据的效率。
其他文献
甲午战争期间,日本教育界的战争观与对华观不仅驱动着其战时的教育实践,而且在更长时段影响了战争体验与记忆在日本的代际传播。在对战争性质的认识上,日本教育界普遍认同本国开战立场的"正义性"。这一"义战"观在催生了所谓"战时责任"的同时,又促使其将战争视为绝佳的"教育时机"。随着日军接连获胜,日本教育界开始力陈"教育致胜"之说,以制造舆论,争取部分战争赔款用于教育。与此同时,战败的晚清中国沦为日本教育界
学位
当今社会,人们常常需要做出很多重大事件的决策,比如健康医疗、保险投资等等,而概率推理能力在其中的作用至关重要。然而,心理学研究表明,人们在概率推理中常常出现认知偏差(Cognitive Bias)和思维谬误(Thinking Errors)。为了解释产生这些偏差和谬误的原因,研究者提出了众多理论,而最具代表性的是"生态理性框架(Ecological Rationality Framework)"和
学位
学位
随着大规模量子网络技术的进一步发展,量子网络全球化已成为必然趋势。作为量子网络中的重要应用和基础保障,多用户间的量子信息高效传输技术近年来在各个领域不断突破,尤其是军事信息安全领域,应用于安全通信、精确位置确定、基于位置的数据访问以及提高传感能力等方面,为军队信息化建设提供技术支持。量子纠缠作为量子网络构建的关键资源倍受关注,基于多粒子纠缠的量子隐形传态和量子态远程制备因其具有瞬时性、非局域性、不
学位
学位
学位
自20世纪90年代以来,我国城镇化、工业化迅速发展,城市建成区周边的农田被大量征收用于修建城市道路、工厂和商品房等,近年来大学城和高新技术产业园区的发展浪潮又进一步侵蚀了城郊的耕地。在政府的制度安排下,城郊乡村被动卷入市场化的浪潮之中,大规模的集体土地被征用或征收、房屋被拆迁,“征迁”这一事件不仅人为地加速了城镇化的进程,也带来了农村社会及其人口的巨大变迁,这一变迁是多维度的、深层次的。失地农民在