论文部分内容阅读
追求存储成本和系统性能的平衡一直是数据库管理系统设计的核心目标之一。现代数据库多采用混合存储架构,每一层存储介质都对应不同的存取速度和存储成本。而在数据库中存放的数据通常有冷热之分,如何准确地识别数据的冷热,根据数据的冷热程度将数据存储在不同的存储介质上,在保证系统性能的前提下最大程度的降低存储成本,这一直是数据库领域的研究热点。目前,识别冷热数据大多依赖于LRU等特定的数据结构,利用数据的相对位置来判定数据的冷热,无法全面反映数据的冷热程度,而且这种识别方式不可量化且不具有可持久性。所以,本文希望研究出一种科学的冷热数据识别方法,提高识别准确率并实现数据冷热程度的量化。本文的创新成果有以下几个方面:1.提出一种基于牛顿冷却定律的温度模型来衡量数据的冷热程度,能够实现数据冷热程度的量化和可视化,同时温度可作为数据的持久属性。2.在温度模型的基础上,提出基于温度模型的缓存替换策略TCR(Temperature Cache Replacement),与传统LRU算法相比,具有更高的缓存命中率。同时,为了克服单纯温度模型算法开销大的缺陷,提出将温度模型和LRU算法相结合的T-LRU(Temperature Least Recently Used)缓存替换策略,其命中率相比LRU算法可提升30%~150%,在缓存容量较小时提升尤为明显;在系统层面,T-LRU的访问延迟要低于LRU算法,系统性能更好。3.在电商业务的应用场景下,为了降低线上数据库和历史数据库的存储成本,分别提出基于温度模型和基于机器学习(GBDT)的冷热数据识别和迁移模型。在冷热数据的识别上,基于温度模型的识别准确率比LRU算法略好,同时模型开销较小;而基于机器学习模型的识别准确率可以达到90%以上,能够在保证系统的性能的前提下,尽早的将冷数据识别并迁移,降低存储成本。