数据去重与垃圾数据删除策略的设计与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:ly12345000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着我国下一代无线移动网络的进程,支撑各种各样电信业务的移动控制网络对底层的存储系统的支持提出了更高的要求。如今日益增加的用户数量和数据流量已经让传统的存储方案显得捉襟见肘。随着这种趋势的到来,如何有效的利用存储空间成为亟待解决的问题。本文首先对国内外主流的几个分布式存储系统进行介绍和分析,并分析分布式系统需要面对的问题和解决方案。在此基础上设计并实现了面向海量用户和海量文件、基于数据块级别数据去重的分布式文件系统CStore,本文主要设计并实现了基于CStore系统的数据回收系统。CStore系统是典型的分布式存储系统,它采用元数据和数据流分离的设计方案,将系统的元数据和文件数据分别存储在不同的集群中,客户端分别访问这些数据关于它们各自的管理和优化。系统的资源定位基于一种两级的哈希映射方案,以桶为单位的负载均衡和副本策略提高系统的可靠性,同时使得系统具有很好的可扩展性。数据去重是CStore系统的主要特点之一,它采用在线的基于数据块级别的重复数据删除策略,这就要求用户在上传文件的时候将整个文件划分成多个数据块,然后分别上传。这样的策略可以节约大量的数据存储空间,提高用户体验,但是同样带来了数据删除的难题。在CStore数据去重的总体架构的基础上,设计并实现了能够以在线或者离线方式执行无效数据删除的垃圾数据删除系统,可以高效并且准确的判断无效数据,进一步节省存储资源。垃圾数据回收系统用于清理系统中没有任何文件引用的无效数据块。该系统基于Bloom Filter算法,在元数据服务器集群数据服务器集群上分别进行相应的操作,由一个中心控制节点负责全局的监控。在容错方面,通过与中心节点建立的心跳连接可以有效得检测到失效的节点,进而进行任务的重新分发,并且该系统为管理员提供了可视化界面,方便管理员控制与管理。本文最后对垃圾数据回收系统的功能和性能进行了测试,证明了它可以正确执行所需功能并保证了其可靠性和准确性。
其他文献
当今互联网技术高速发展,尤其在教育工作领域中的应用更为广泛,这使得教育工作者能够更加快捷的进行教学与办公,极大地提高了日常工作效率。本文总结了目前现有教育网站和各
智能服务机器人已经走进了普通民众的生活,并将在未来扮演越来越重要的角色。在工作过程中,机器人将会面临多种多样的物体定位和识别挑战,开发实用的视觉算法和技术是服务机
随着Web技术的发展,人们对于信息的需求也与日俱增。用户希望获得信息的渠道和方式更加便捷和高效,尤其是在搜索信息时,期望所需求的信息尽量排在前边,这便是SEO (Search Eng
近年来,基于全球性的三维地形漫游系统受到大家的热切关注,已广泛应用于地理信息系统(GIS)、国防军事、城市规划等领域。然而,随着现代数据采集能力的提升和人们对需求质量的
随着计算机网络的快速发展以及通信技术的不断成熟,人们的通信方式发生了很大的变化。其中即时通信系统以其便捷易用性、沟通方式多样性、消息即时性以及沟通成本低等优势广受
智能电网是未来电网的发展趋势,构建智能电网建设的重要基础之一就是信息平台。而今后的发展中,电网的数据必然会越来越多,传统的信息平台可能在未来已无法满足需求。而海量数据
互联网的飞速发展改变了人类生活的方方面面,在互联网给人们提供的服务中,视频直播服务以其时效性、娱乐性等优点备受人们青睐。在视频直播服务发展伊始,人们普遍采用集中式C
随着Web应用的迅速发展和软件规模的日益扩大,为了节约软硬件成本及维护的费用,软件即服务(Software as a Service,SaaS)作为一种新的软件应用模式应运而生。“单实例,多租户”是
随着多媒体技术的兴起,人们的生活得到了很大的提高。它在提供了基本的生活便利之外,更在逐步改变着传统的生活、娱乐、交际方式。然而,随着信息时代的来临,数据量的膨胀以及
当前,数字图像的修改变得更易操作,效果更为逼真,能“以假乱真”的图像也随之出现,扰乱社会秩序。鉴于此,能够辨别图像真伪的数字图像取证技术成为当前刑侦、安全、宣传、知识产权