分布式顺序表缓存技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:woaifulei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对快速增长的海量数据,人们对数据存储和处理系统提出了更高的要求。基于分布式顺序表的NoSQL正是为了满足这样的需求而出现的,典型代表有Google BigTable、Apache HBase和Apache Cassandra等系统,这一类的系统具有高可靠性、高可扩展性和高并发性等特点。分布式顺序表采用LSM树来管理数据,此数据结构先将数据写入内存,在达到一定阈值之后再异步地刷写到磁盘文件中,由于内存的缓冲作用,这使得基于分布式顺序表的存储系统具有优秀的数据写入性能;但是相对于数据写入性能,数据的读取性能就相对逊色了,这是因为所有的查询都需要到磁盘读取数据,因此读取性能受限于磁盘的IO通量。  针对分布式顺序表存储系统在读性能上的问题,一般通过利用缓存系统来提高读取性能。缓存系统的发展历史悠久,已经涌现出了许许多多的经典缓存算法,它们各有各的优缺点和适用的场景,目前在实际应用中使用最广泛的缓存算法是LRU及其改进版本。此类算法结构简单,但是并不能很好地适应实际应用环境。  本文在仔细研究分布式顺序表的存储原理和结构的基础上,提出了一种基于查询范围信息的缓存算法——ScoreCache缓存算法。该算法利用分布式顺序表顺序存储数据的特点来获取每个查询涉及的数据范围,并结合查询的执行情况为每个查询涉及的数据构建动态的得分,最后根据得分指导缓存的换入换出策略。  ScoreCache缓存算法的设计主要关注两个方面。一个方面是设计从分布式顺序表的存储结构中获取查询涉及的数据范围的方法;另一个方面是设计能够动态实时反映数据将被访问情况的得分计算方法。  依照ScoreCache缓存算法的设计,在Apache HBase的基础上实现了ScoreCache缓存系统。通过对比实验,测试了ScoreCache缓存系统的性能,ScoreCache缓存的性能在多种情况下均比BucketCache缓存有所提高,命中率提高了15个百分点以上,数据读取通量提高了20%左右,查询延迟也有一定的降低。
其他文献
虚拟林业技术已经在农林业生产、生态研究、景观设计和游戏娱乐等领域有了广泛的应用,并带来了巨大的效益。随着计算机软硬件水平的提高、实时图形学理论和科学可视化技术的不
针对在安全领域中单纯的防火墙和入侵检测系统都存在着局限性,入侵防御系统应运而生,它是继防火墙和入侵检测技术之后的新一代信息安全保障技术。它是实时地保护网络及系统不受
随着科学技术的不断发展,视频处理技术得到越来越广泛的应用。视频处理技术的研究内容包括运动目标检测和物体跟踪等很多领域,视频处理技术的研究成果可以广泛地应用在各个领域
对于整个通信系统而言,卫星移动通信系统是地面蜂窝系统的一种必要的补充和延伸,尤其在抢险救灾、应急指挥、海洋渔业等领域发挥重要作用。卫星移动通信系统主要由卫星、地面站
序列标注问题是自然语言处理领域的一个非常常见的任务,从浅层的分词、词性标注,到较深层的组块分析以至更为深层的完全句法分析、语义角色标注等任务,都可以看作是典型的序列标
学位
信息技术技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化推荐系统应运而生。推荐系统
Web的发展使得电子文档数目巨大且迅猛增长,大量的信息存在于非结构化的自然语言文档中,为了能高效地利用存在于自然语言文本中的信息,信息抽取技术提供了一条有效的途径,利用它
构件和基于构件的软件开发是目前软件工程领域研究的热点。基于构件的方法使得大型分布式软件系统的开发和维护变得更为简单,可以提高软件的复用性和软件开发效率。但是,采用
本文针对乐音音符的识别进行了具有开创性的研究,提出了一套比较有效可行的乐音音符编码方法。 乐音音符编码和自动乐谱编制技术是将纸质乐谱输入到计算机,经过处理,把乐谱图