面向持久性键值缓存的高效哈希索引结构研究

来源 :董深育 | 被引量 : 0次 | 上传用户:yaoyao2048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
商业化新型非易失性内存(Non-Volatile Memory,NVM)产品的出现为实现大容量持久缓存提供了良好的机遇。在大容量持久缓存中,索引结构是决定缓存访问性能的关键因素。另一方面,持久化存储可避免缓存冷启动问题,但需要提供数据一致性保障机制,避免因意外宕机造成缓存数据不一致。因此,如何设计高效的索引结构并提供低开销的数据一致性保障机制成为构建大容量持久缓存的重要挑战。针对上述挑战,结合NVM的特性设计并实现了一个面向持久键值缓存的高效哈希结构PMCache Hashing,它将NVM缓存区划分为固定大小的桶,桶内包含元数据区和多个存储槽,槽内缓存有效键值对,并采用双哈希函数以及至多一次数据踢出操作解决哈希冲突,实现了较高的哈希表空间利用率并避免了对NVM产生过多的额外写操作。在此基础上进一步提出了超前踢出与键值移动策略优化写操作,其中超前踢出策略可大大减少踢出操作时的查询开销,键值移动策略可以保证一次缓存行刷新就可以完成尽可能多的插入请求的数据及元数据持久化任务。为了减少NVM与CPU之间的数据交换并尽可能避免对NVM的随机读操作,在元数据区设计了指纹与驱逐标志。其中使用指纹可以加速桶内探测速度,提升键值对的查询效率,使用驱逐标志可以保证绝大多数负面读操作仅需要读取一个桶即可返回结果。为了实现低开销的无日志数据一致性保证方法,在元数据区还设计了有效位和崩溃位以快速甄别系统崩溃导致的错误数据以及重复数据,实现故障快速恢复。在配有Intel傲腾DCPMM(Data Center Persistent Memory Modules)的服务器上实现了基于PMCache Hashing的持久键值缓存并进行了测试评估。测试结果表明,PMCache Hashing相对于Level Hashing和Dash,插入性能最高分别提升了1.4倍和38.6%,搜索性能最高分别提升了2.6倍和44.0%。基于PMCache Hashing的键值缓存在读密集的负载下相较于基于Level Hashing和Dash实现的键值缓存性能最高分别提升了5.2倍和23.3%。
其他文献
基于对等网络(Peer to Peer,P2P)的分散式存储网络是Web3.0的重要内容载体与核心组成部件。但P2P的匿名性引入了女巫攻击,为对抗女巫攻击及其变种,分散式存储网络常使用栈式深度鲁棒图(Stacked Depth Roubust Graph,SDR)算法减缓数据副本转换。但SDR算法的执行过程中生成的中间数据会占用大量内存,成为闲置设备加入分散式存储网络以及多个转换过程并行执行的主要
学位
机器学习等读密集型应用场景对存储系统读性能的需求不断提升,拥有高带宽、低时延以及高并发性的NVMe SSD逐渐成为构建高性能存储系统的重要设备。目前主流键值存储系统通常采用日志结构合并树(Log-Structured Merge Tree,LSM-Tree)作为数据索引,然而LSM-Tree受限于自身结构和低效的I/O(Input/Output)访问模式,难以充分发挥NVMe SSD的优势。因此,
学位
计算性能远快于存储性能的发展,传统冯·诺依曼架构下的“存储墙”问题日益凸显。基于存算一体架构的可计算存储系统通过将计算资源卸载到离数据更近的存储设备内部减少数据迁移,以缓解“存储墙”问题,成为研究热点。然而现有可计算存储研究基于定制专用软硬件协同平台,各平台间硬件与软件系统实现高度不统一,缺乏通用编程接口与运行环境且扩展性较差,各平台互不兼容、接口协议互不相同,限制了对可计算存储应用的探索。针对可
学位
特征压缩可以减少特征数据量,对缓解机器的存储压力、降低传输时的通信资源消耗具有重要意义。特征是神经网络中最基础的部分,对各项深度学习任务的最终结果起着关键作用,因此在保证特征表达效果的前提下减少特征的数据量成为特征压缩研究的重难点。已有的特征压缩算法大都将特征通道平铺成大型二维矩阵,针对通道内的冗余进行压缩,很少考虑通道间的冗余。另外在足球视频视觉任务中提取的深度特征数据量大,给机器带来很大的计算
学位
随着大数据技术的高速发展,越来越多的应用需要高吞吐、低延迟的缓存存储系统支持——通常由内存键值存储系统构成,比如被大量企业所采用的Memcached。但是,在类似Memcached的分布式内存存储集群中,节点故障或网络拥塞频发,导致数据在内存集群中可靠性不足。这使得系统不得不频繁访问后台磁盘节点,从而导致存储服务性能的降低。因此,内存键值存储系统的高可靠性保障对存储系统整体性能起到关键作用。相较于
学位
互联网时代,生活节奏加快,在线浏览与碎片化阅读成为人们日常获取信息的主要渠道之一。然而,当前大数据背景下的海量信息无法满足用户快速获取高质量、高价值信息的需求,因此文章推荐系统应运而生。本论文通过对在线教育平台业务进行大数据统计分析和信息搜集,设计并实现了一个文章推荐系统:基于个性化推荐技术对拟推荐结果进行分类排序,从而得出用户兴趣偏好,最终把推荐结果推送给相应用户。在推荐系统中,当用户以及推荐物
学位
近年来,容器云平台迎来了高速增长,但由于容器是操作系统层的虚拟化,隔离性远不如虚拟机,使得多租户的容器云平台面临着资源安全的巨大挑战。资源度量数据(如CPU使用率、内存使用率、磁盘I/O吞吐和网络I/O吞吐)能够反映宿主机和容器的资源使用情况,对其进行异常检测是保障容器云平台资源安全的重要手段。针对当前异常检测算法存在着难以挖掘周期特性、对噪声误检高等问题,提出了基于奇异谱变换和局部异常因子的异常
学位
随着云计算的发展,越来越多的云服务提供商选择使用轻量高效的容器技术,来代替性能开销较大的虚拟机技术。为方便管理云环境中容器间的网络通信,容器Overlay网络模型被广泛使用,通过封装数据包的方式在物理链路上提供一层虚拟网络,避免了对宿主机网络的复杂配置,成为跨节点容器间的主流通信方式。然而,现有网络流量控制机制无法识别被Overlay网络模型封装的容器数据包,使得容器平台无法像控制计算资源和内存资
学位
In the field of energy industry,PLC(programmable controller)industrial control technology is a key technology.It is the core technology to control the automatic and efficient operation of business.The
学位
近年来,随着5G通讯、物联网、人工智能等技术的迅猛发展,各类数据每年呈指数型增长,其中80%的数据都会转变为冷数据保存。如何将海量的冷数据以安全稳定、绿色节能、低成本的方式进行长期保存成为数据中心所面临的日益严峻的问题。均匀介质体存储(Homogeneous Medium Volume Optical Data Storage,HMV-ODS)具有在标准蓝光光盘大小的盘片中廉价安全存储数十、甚至上
学位