基于固态硬盘的搜索引擎混合式存储结构研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:benben8383
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大型搜索引擎索引了数以亿计的海量文档,每秒钟需要处理数百万个查询请求。目前,许多大型搜索引擎使用磁盘(HDD)存储海量的索引数据,磁盘的低速I/O成为其主要性能瓶颈。与传统的机械式磁盘不同,新型存储设备固态硬盘(SSD)有许多优点,尤其是其较高的随机数据存取能力,然而,它也有潜在的问题,如单位容量存储成本高、读写速度不对称和块擦除次数有限等,因此,当前大型搜索引擎还不能用SSD完全取代磁盘。搜索引擎是典型的I/O密集型应用,它在I/O模式上表现出明显的特征,如读为主、局部性、跳跃读和随机读。基于SSD的搜索引擎混合式存储结构是检索性能、硬件成本和系统可靠性的折中,它综合考虑了SSD的读写特性和搜索引擎应用的I/O特征,将热点数据缓存在内存和SSD中,尽可能减少访问磁盘的次数,提高系统的I/O性能。基于SSD的搜索引擎混合式存储的数据管理策略采用基于日志的思想组织SSD中的数据,其目的是提高搜索引擎的检索性能,同时降低SSD中的块擦除操作,它主要包括三个方面:一是数据选择策略,它是根据缓存数据的不同特征,合理的选择数据存储在内存或SSD中;二是数据放置策略,它采用一种改进的基于日志的数据管理策略来组织和管理SSD中的数据,以确保其高效的读写;三是数据替换策略,它对SSD中缓存的结果和倒排表采取不同的覆写策略,以尽量避免开销昂贵的随机写操作,减少块擦除操作。实验结果进一步验证了上述数据管理策略的有效性,其中,缓存命中率提高了13.31%,检索性能提高了41.05%,SSD中Flash平均访问时间降低了43.83%,SSD中块擦除次数减少了71.52%。
其他文献
随着云计算技术的飞速发展,很多互联网服务商都推出了自己的云平台。云平台中的基础设施满足用户的虚拟机使用请求,对虚拟机分配资源并进行调度。现有云平台中的虚拟机调度模块
随着嵌入式系统应用的日益广泛,嵌入式应用系统所包含的功能也越来越多,且嵌入式应用系统的更新换代的周期越来越短。这导致了嵌入式应用系统巨大的设计与开发压力,要求进行软、
互联网将各种信息提供给人们的同时,海量的信息又使人们很难迅速而准确地获取自己最需要的信息。这是因为计算机不能理解目前网页内容的语义且各种信息缺乏组织。语义网技术通
织物图像的风格是指一种固有的模式,这种模式不仅包括了织物中的图案而且也包括了它们各自的空间关系。每种风格的图案都有各自的独特性。基于风格语义的织物图像分类非常有
分割是计算机视觉的基本研究问题,也是近几年来比较热的研究方向之一。分割是指从图像或视频序列中提取出感兴趣的前景物体。随着计算机视觉的发展,涌现了大量的图像和视频分割
基于流形正则化的半监督分类算法框架(Manifold Regularization,MR)和基于后验概率的支持向量机(Posterior Probability Support Vector Machine,PPSVM)是近年来提出的两种比较新的
桌面虚拟化技术是目前虚拟化领域的研究热点。目前的虚拟化桌面包括VDI(Virtual Desktop Infrastructure)和WebOS两大类,可以给用户提供多种功能,但是VDI需要用户安装客户端,并且
随着互联网的发展,web服务的数量激增,服务组合无论在效率上还是在QoS的保证方面,都面临着前所未有的挑战,本文在对已有工作进行充分调研的基础上,提出了一个新型的web服务组合原
随着互联网技术的发展以及移动互联网的普及,人们的日常生活更加强烈地依赖于计算机技术与互联网技术,与此同时,用户的隐私被侵犯的风险越来越高。一方面,现阶段的计算机系统或者
随着硬盘存储密度的不断提高,对磁头定位技术和磁头飞高控制技术的要求也愈来愈高。虽然当前普遍使用的一级定位技术和热飞高控制技术均能满足需求,但是一级定位技术势必无法继