键值存储系统的压实优化:单文件压实

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:my_owenlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
键值存储系统(Key-Value Store)通过允许硬盘上保留多个版本的数据来提供高速的写操作。其中旧版本的数据由键值存储系统提供的压实(Compaction)操作来删除。目前流行的压实方法称为多文件压实(Multi-File Compaction,MFC)。MFC会选取若干个SSTable,压实成一个新的SSTable。在压实过程中MFC会检测并删除旧版本数据。然而MFC存在一些问题:首先,MFC操作会引起大量的I/O开销,这会影响到键值存储系统对用户前端操作的响应;其次,MFC的触发过于盲目,当系统中SSTable的个数达到阈值时MFC就会被触发,并没有真正考虑这些SSTable中是否真的有冗余数据;第三,文件大小相近且相邻的SSTable中的旧数据可以被很好的检测并删除,但是如果SSTable的大小相差很大时,其中的旧数据不容易被处理。  为了解决这些问题,我们为Key-Value Store提出了一种新的、轻量的、智能的压实方案单文件压实(Single-File Compaction,SFC)。首先,SFC通过PUT操作来检测旧值,并将旧值记录在Delete Log中,每个Delete Log对应一个SSTable。检查旧值时利用BloomFilter来减少I/O的开销。利用检测得到的旧值,我们可以知道SSTable中旧值的分布,因此可以智能的选择SFC的触发时机。第二,SFC通过归并SSTable和其对应的DeleteLog来删除旧值。与MFC每次压实多个SSTable不同,SFC每次只对一个SSTable进行压实,这使得SFC变的更加轻量,可以更及时的删除旧值。我们在Apache HBase上实现了SFC。通过实验证明,SFC适用于多种不同的数据模式。与MFC相比,SFC大幅减少了压实所用的时间,并使系统拥有更好的性能。
其他文献
随着中国加入WTO,越来越多的企业意识到在竞争日益激烈的今天,进行客户关系管理的必要性。以客户为中心来整合企业的经营方式是客户关系管理的核心理念,而数据挖掘决定了客户关
该文首先设计实现了一个网络流量采集系统,系统利用SNMP从网络设备的MIB库采集流量信息,并存储到历史数据库.根据采集的网络流量数据,该文建立了一个基于实测的网络流量模型.
随着Internet的普及,利用网络进行的攻击越来越多,且手段越来越高明,原有的被动防御安全策略已显得力不从心,有必要使被动防御与主动检测相结合,来加强网络与系统的安全性,保护重要
随着计算机网络在社会生活各个领域的不断渗入,计算机网络已经成为了我们生活的一个基本保障。一个完善的网络管理系统是计算机网络能够可靠和稳定运行的保证,而网络监视功能则
随着计算机网络技术的进一步发展,建立在网络基础上的商业运行模式--电子商务逐渐成熟与完善,并随全球经济一体化进程的加快,在世界范围内日渐得到普及。与传统的商务模式相比,电
BPR(业务过程重组)是90年代发展起来的,旨在通过建立高效优化的业务流程而全面改善产品生命周期的T、Q、C理论和技术.该文通过发展传统BPR理论并结合并行工程的思想,提出动态
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题,基于内容的图像检索是解决这一问题
海量小文件访问应用场景已经广泛存在,具有高比率高并发同步元数据访问与随机小粒度IO数据访问的两个本质特点,给当前分布式文件系统带来了降低访问延迟和提高存储效率的挑战。
移动智能网是叠加在原有移动网络上的业务网,用于提供各类智能数据业务.SCE是移动智能网中的一个实体,用于定义、开发、测试在智能网中所提供的新业务.该文总结了作者研究生
一个功能完善的企业电子商务(e-Business)信息系统系统,不仅要有内部的电子数据交换,也要有与贸易伙伴之间准确无误的电子数据交换,才能充分发挥MIS系统高效、准确、及时的优势