面向相似重删性能优化的编码与检测技术研究

来源 :谭浩良 | 被引量 : 0次 | 上传用户:kunjian99_Gmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,全球数据量呈爆炸式增长。同时最近的研究发现,数据冗余现象普遍存在于各级存储系统中。数据相似重删技术可以有效地消除系统中的细粒度冗余数据,进而提升各级存储系统的数据管理效率和减少数据存储开销,因此被广泛应用于优化同步复制、数据库备份和归档存储等场景中。具体而言,相似重删是一种数据缩减技术,对系统中的文件或数据进行相似性检测,然后对相似文件和数据进行差量编码,最终只存储差量数据,从而节省存储空间。但是相似重删中的差量编码和相似性检测等算法需要大量的计算,难以匹配日益增长的数据规模。因此,本文对相似重删中的差量编码和相似性检测两个算法进行研究并优化。对于差量编码算法,在快速滑动哈希算法Gear和新型压缩算法Zstd的启发下,本文提出一种新颖的快速差量编码算法Gdelta,实现差量编码计算速度和压缩率的平衡。Gdelta使用改进的快速滑动哈希算法扫描细粒度单词和基于数组的快速索引方案进行单词匹配来提高差量编码速度。在单词匹配之后,Gdelta结合Zstd和FSE,批量压缩差量块,提高数据压缩率。对于相似性检测算法,首先优化其哈希算法,使用Gear滑动哈希取代经典的Rabin滑动哈希,提升哈希计算效率,然后引入跳跃式计算机制减少不必要的计算,最后提出基于上述相似性检测算法的聚合压缩策略,充分挖掘不同数据块之间的相似冗余,进一步提高相似重删的压缩率。在公开数据集和真实数据集下的实验结果表明,相比于目前先进的差量编码算法Xdelta和Zdelta,本文提出的差量编码算法Gdelta在编码/解码速度上提高了 2~4倍,同时压缩率提高了 10%~120%。优化后的相似性检测算法将相似性检测的计算速度提升2~4倍,并且不影响其相似性检测能力。相比经典的独立压缩机制,结合相似聚合压缩的相似重删技术压缩率提升了 5%~18%。
其他文献
卫星物联网(Satellite-based Internet of Things,S-Io T)能实现全球覆盖,提供随时随地接入的能力,已经成为下一代移动通信的重要发展方向之一。但是,虽然S-Io T能够提供广域覆盖,如何保障海量Io T用户设备的高效接入仍然是一个开放难题。与此同时,卫星与地面Io T用户设备之间数百公里以上的距离会产生较大的传播时延,使得S-Io T面向大规模机器型通信(mas
学位
随着物联网的普及和发展,物联网系统的稳定性变得越来越重要。为了保证物联网系统的稳定性,需要实时监控物联网设备的行为,以便发生异常时能及时采取行动解决物联网系统的潜在问题。而为了监控物联网设备的行为,设备上的传感器收集了大量的时序数据,因此检测时间序列中的异常至关重要。然而,时序数据的异常检测由于其复杂的时间依赖性和动态性,以及数据没有标签等问题,使得现有的异常检测模型在某些方面难以达到预期。为了解
学位
旅游是人们满足基本生活需求后追求更高生活层次的一种活动,越来越受到人们的追捧。旅游业也从传统的观光游览逐渐向休憩、娱乐、体育、康养等方向转变,对更高层次的精神需求与康养保健的追求成为现代旅游总趋势。避寒旅游作为康养旅游之一,旅游者对冬季康养旅游的需求日益增多,避寒旅游地利用天然气候条件为人类提供舒适的居住环境,可促进人类身心健康,已成为中老年人群和白领阶层的优选。加之在全球极端气候变化加剧的背景下
学位
单通道语音分离是当今语音处理领域的研究热点,是指在单个声音通道的条件下,从包含多个说话人的混合语音中分离出各个说话人干净语音的处理过程。现有的语音分离方法主要包括基于时频表示的方法和端到端的方法。基于时频表示的方法将混合语音转换到频域空间,分离得到各个说话人的时频表示。端到端的方法将语音分离任务分解为特征编码、特征分离和特征解码三个步骤,整个网络可以联合优化,通过数据驱动的方式学习一个说话人可分性
学位
生产能力禀赋是一个国家或地区产业形成和发展的基本支撑,决定了产业体系的综合实力和核心竞争力。系统性地提升生产能力,应着眼于整个经济体系,实现研发、生产、流通等环节中各个部门的优势互补、协同共进。就具体产品而言,其生产能力体现在与之相关的产品积累的生产能力,即相关生产能力。本文从相关生产能力这一角度出发,理论分析了相关生产能力促进产品比较优势提升的机制,并利用1995-2017年海关贸易数据构建全球
学位
滑坡是一种发生频率较高的地质灾害,给人民的生命财产安全带来了极大的威胁。滑坡监测预警作为滑坡防治措施之一,能一定程度降低滑坡灾害的发生,减少滑坡灾害造成的人员伤亡和财产损失。同时,滑坡的风险评估结果可为决策者制定和实施决策提供依据。本研究首先通过分析降雨型滑坡和典型滑坡预警模型的特点,建立了基于多源数据的降雨型滑坡综合预警模型;而后,基于预警等级概率,建立了滑坡风险定量评估模型;最后,基于滑坡综合
学位
射频识别(RFID)技术通过电感耦合或电磁反向散射耦合的原理在无接触的前提下可以实现标签到接收器之间的通信,而超高频RFID技术更是具备通信距离远的优势,应用前景广阔。对于RFID系统而言,标签天线是通信的核心组件之一。常用的天线制备原料为金属银或铜,制备方法为蚀刻、电镀、绕线法等。但以金属为原料制备天线成本较高,且常用的制备方法效率低,制备过程中容易产生较大污染。本课题基于此情况,选取了成本更低
学位
车路协同感知作为5G通信的典型应用场景,通过车端与路侧设施的感知与动态地图信息共享可实现列队行驶、协同变道、交叉路口管理等诸多应用。相较于传统的5G通信网络,车联网将高速移动的汽车作为通信主体,信道状态不稳定、切换频繁等独特因素使得一些传统的通信手段不适用于车辆通信环境。此外,车辆感知类应用对于通信的吞吐量、时延及可靠性的需求,也对车辆通信网络提出了很大的挑战。为解决上述问题,计划从网络架构选取和
学位
随着大数据、云计算和实时视频等新型数据业务的出现,互联网流量呈现日益增长的趋势,对于80 km传输距离的数据中心光互联传输容量有着迫切的需求。解决这一问题的方向之一是单通道传输速率超过100 Gb/s的直接检测系统。考虑光纤损耗和波分复用的需求,通常使用C波段光源以实现更高的接口传输速率,但该波长窗口的光纤色散会严重影响高速PAM4信号的传输性能。另一种方案是单通道传输速率超过200 Gb/s的相
学位
随着物联网的快速发展,无线传感器网络在近些年来已经引起了广泛关注。扫描覆盖是无线传感器网络中覆盖问题的一个主要研究分支。在扫描覆盖中,具有移动能力的传感器节点会周期性地访问目标区域中的兴趣点(Point Of Interest,POI)。数据收集问题和能量限制问题是扫描覆盖中研究较多的两个问题,但是现有相关研究还有不足之处,主要体现在:对于数据收集问题,现有研究未考虑到传感器数量不足的情况,为了最
学位