基于频繁项集挖掘的搜索引擎交集缓存策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:bbs_zj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代的搜索引擎系统需要存储海量的数据,并接收大规模用户的高并发检索需求。由于磁盘具有价格便宜、超大容量存储等优势,被很多搜索引擎作为系统的主要存储介质。但磁盘相对于内存来说,其读写性能较低,使得搜索引擎系统的主要瓶颈问题在于磁盘的低速I/O。针对该问题,很多搜索引擎系统采用缓存技术来进行优化。而已有的缓存技术也存在一些潜在问题,如查询结果缓存和倒排列表缓存对查询长度较长的查询缺乏有效性、交集缓存数据选择策略效率低下和对不同特性的应用灵活性差等问题。因此,需要寻找一种新的缓存数据策略,以在搜索引擎检索性能、缓存数据策略效率和应用灵活性之间具有更好的平衡。针对已有的搜索引擎缓存体系架构存在的问题,提出了基于内存的搜索引擎三级缓存体系架构TLMCA,将访问最频繁的查询结果、倒排列表和交集数据存放在内存中,尽可能快地返回搜索的结果。与传统的二级内存缓存架构相比,三级内存缓存架构的检索性能提高了27%,且交集缓存对查询结果缓存和倒排列表缓存的命中率几乎没有影响。为了提高交集缓存数据的选择效率,并增强交集数据对不同特性应用的灵活性,设计了基于FP-Growth的Top-N频繁项集挖掘的交集缓存数据选择策略,并设计了相应的缓存查询处理流程,采用贪婪策略来减少系统开销,以提升系统的响应速度。同时,当交集缓存数据项的最大长度为3时,交集缓存带来的检索性能最佳。为了保证交集数据在持续不断的检索数据流中的有效性,提出了基于增量频繁项集挖掘的交集缓存数据替换策略,采用字典树Trie-Tree的前缀树数据结构,充分利用先前已建立的模型,来减少增量频繁项集挖掘过程中的开销。同时,基于缓存命中率的反馈调节机制,给出了动态数据流中的交集缓存数据替换时机定义,以在离线分析系统开销和在线检索系统性能之间具有较好的平衡。
其他文献
随着网络技术的快速发展,包含有文本与图像等数据的多模态文档大规模地出现在人们的日常生活中。在信息的世界中,这些不同模态的数据资源可以无形地提升感觉器官接受知识的能力
随着社交网络图片分享应用的流行,社交网络服务提供商存储和传输大量图片数据的挑战更加艰难。为了有效的提升数据传输性能,服务提供商一般部署分布式缓存来解决问题。影响分
随着人类社会从以控制为出发点的IT时代迈向以激活生产力为目的DT(data technology)时代,越来越多的企业意识到数据背后的巨大价值,纷纷投入大量的资金和人才推动大数据基础
近年来,越来越多的数据被实时流处理。流处理应用在处理数据的过程中需要保持尽可能低的处理延迟,才能充分利用数据的价值。然而,流处理应用在处理数据的过程中存在不稳定的
学位
地标识别近年来吸引了国内外许多研究者的关注。现有地标识别技术大多以单张图片作为查询图,用基于内容的图像检索技术实现地标识别。然而单张图片视角小,包含信息较少,识别
并行计算机互连网络的拓扑结构一直是国际上的研究热点。人们已提出了多种互连网络拓扑结构,其中超立方体是最流行的互连网络拓扑结构之一而且已被广泛用于商业并行计算机系统
计算网格是分布式计算中的一个重要组成部分。随着个人电脑的普及以及性能的提高,互联网的日益成熟和壮大,使得计算网格的潜力在大型计算中得到越来越重要的发挥。出于经济或
近年来,随着软硬件技术的飞速发展,移动终端——特别是手机具有了访问因特网的能力。作为在因特网中获取信息最重要的工具浏览器,在这类设备上也有了发展。然而,相比于桌面浏
对于大规模实体系统,由于实体的数量巨大,具有有限感知能力并且是不可靠的,因此不可能将针对小规模实体系统的,由可靠实体组成的方法应用到这样的系统中。人类免疫系统就是这样一