重复数据删除关键技术优化研究及SRC路由协议设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:lfshiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据量的爆炸式增长以及海量数据的大规模集中使得数据重复所导致的空间浪费问题越来越严重,这促使了重复数据消除技术的出现和发展。重复数据删除概念很简单,如果做一分钟“电梯演讲”:一本浩瀚的大不列颠百科丛书有4400万个字符,共计3万多英文单词,所有的这一切都是由简单的26个英文字母构成。海量数据高达EB级别,重复数据删除技术是发现海量数据中的“字母”,并将数据以“字母”的形式构成,将重复的数据进行删除以获得更好的存储空间性价比。目前,重复数据删除方面的研究工作已经在消冗率提升、性能优化以及分布式路由算法等方面取得了一系列有价值的成果,有效地推动了该技术的应用。本文从研究热点与瓶颈出发,主要研究面向服务质量的分布式重复数据删除系统,面向服务质量就需要支持服务质量的可调节,研究目标是建立一种基于多重策略设计及优化的重复数据删除技术体系。首先,本文重点研究了重复数据删除的技术体系、关键技术和关键指标,以此建立重复数据删除原型系统,其中消冗引擎作为重复数据删除技术的关键核心,包括路由算法、数据块仓库、并行流水线控制、网络通讯规约。在此基础上对关键技术的模型进行分析,分析内容包括索引模型分析、数据模型分析、性能模型分析,并从理论角度进行验证。其次,路由算法是分布式重复数据删除存储系统中的关键技术,但现有的路由算法无法满足分布式系统在消冗效率、数据迁移及集群弹性上的要求,因此,本文设计了一种基于Chord的相似性路由检测算法SRC(Similarity Routing Based on Chord),并从理论角度完成算法的收敛性、一致性证明,进一步详述了SRC路由算法的三个阶段。最后,从三种关键技术的模型分析结果出发,提出具体技术策略改进、优化方案,其中包括索引的分级优化、基于数据价值的迁移优化、基于读请求重组的性能优化。在系统实验过程中,搭建了分布式集群环境,并选取测试数据集及实验工具,完成读写并发响应时间测试、集群读写能力测试、路由算法负载均衡测试、节点容错测试等。经实验验证,对于分布式重复数据删除系统中的关键技术策略的优化及SRC路由算法的设计,明显地克服了原有技术体系中的热点瓶颈及性能缺陷,多角度、深层次、宽领域的完成对重复数据删除关键技术的研究,进一步提高重复数据删除技术服务质量,推进以重复数据删除技术为中心的绿色存储理念在云存储概念中的进一步应用。
其他文献
随着计算机仿真技术的不断成熟,针对不同领域的仿真器不断涌现,它在减少损失、节约经费、缩短开发周期、提高产品质量方面发挥了巨大的作用。然而,系统的规模日益扩大,单学科仿真
无线传感器网络是由一系列部署在感兴趣区域的传感器节点组成,传感器节点大都能量有限同时处理能力有限,不同的节点之间相互通信形成一个自组织网络,最终将物理世界的数据采
随着无线通信和泛在网络的飞速发展,泛在学习作为一种新型的学习理论体系正在逐渐流行起来。协作性是泛在学习的重要特点,它强调学习过程中的相互配合、相互促进,或者根据学习任
在短波大型通信系统改造过程中,前端上百台部的数字化接收机、专用解调器和网络复/分接设备等都需要统一的管理调度。要实现资源的共享或综合利用,合理可靠的资源管理技术是十
由于嵌入式设备的应用日益广泛,其开发技术也成为近些年来计算机行业研究的热点话题。其中,软硬件协同设计技术由于其开发周期短,成本控制好,系统灵活性高,适用范围广泛等优势,逐渐
电力工业是国家经济发展的基础型资源,关系到经济的稳定上升和人民的日常生活。电缆作为电力系统的传输介质,它的安全高效运行是国民经济和居民生活质量的重要保障。传统的电缆管理存在着数字化程度不高,原有的资料信息不完整,人工普查信息位置不准确,电缆规划、建设和抢修维护存在盲目性等一系列弊端。地理信息系统(Geographic Information System,GIS)综合地图学以及遥感和计算机科学,在
随着车辆的不断增多,在车辆行驶的过程中,一些驾驶人员的不良驾驶习惯致使交通事故频发,从而安全驾驶得到了越来越多的关注。作为一种潜在的解决方案,智能驾驶技术将成为一个
随着计算机技术的迅猛发展,收集并处理规模庞大且种类繁多的实际网络数据成为满足物质与文化需求的必要途径,网络科学也随之扮演着愈来愈重要的角色。与人们生活紧密相关的网
随着LTE网络技术的发展,越来越多的用户使用移动终端产品通过LTE网络进行数据通信。然而在LTE网络环境中用户传递的信息都是通过电磁波传播的,而电磁波的特性导致用户信息很容
在网络飞速发展的今天,Web已经成为全球最大分布式共享信息资源。由于网页结构的复杂性、页面动态性和内容的多样性,使得人们在网络上搜索到有价值的信息非常困难。信息抽取技