基于云存储的分布式实时搜索引擎

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:JohnStorm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以DropBox、EverNote等为代表的云存储服务的兴起与不断发展,云存储平台在存储数据方面的可靠性、易用性使得个人信息正在不断从传统的存储介质向云存储转移,云存储平台正在形成一个全新的数据中心,数据的爆炸式增长使得搜索成为云存储系统的必备功能。基于云存储的搜索引擎应该能够提供实时的索引更新和搜索功能,同时满足大规模用户并发访问的性能要求。  本文针对云存储搜索引擎的需求,研究其在满足实时性和“用户局部性”条件下的分布式搜索引擎架构,目标是设计能支持海量数据、具有实时性且主要针对个人数据访问的分布式搜索引擎系统。本文的主要工作如下:  1.设计并实现了一个面向云存储应用的分布式实时检索系统。本文针对云存储系统的实时性、大规模数据访问等需求特性,根据用户的访问操作特征,设计并实现了一个分布式的实时搜索引擎原型。该设计的目标是满足系统大规模的实时索引更新和高并发的搜索请求,同时具有一定的可靠性和扩展性。  2.设计并实现了面向用户的索引分区结构。根据“用户局部性”的需求,设计并实现了用户——节点映射的索引分区模式,使用户的查询空间尽可能地隔离,从而降低了请求响应延迟,提高了并发性,并同时保证了较好地可扩展性。以此为基础的系统在索引更新和查询请求方面提高了96.23%和240.19%的响应速度。  3.设计并实现了具有高吞吐量的实时搜索子系统。在保证实时性的基础上,设计并实现了一个集硬盘内存联合索引、多线程更新索引、标记删除等特性于一体的搜索子系统,保证系统的高吞吐量和响应效率。子系统在请求响应和索引更新时延方面比Zoie减少了31.18%和45.70%的时间。  4.对系统进行了评测。本文从索引更新响应时间、查询响应时间等方面入手,通过不同规模的测试数据对系统进行了评测。评测证明系统具备较快地响应速度和较高系统吞吐量。
其他文献
随着异构网络的不断融合,以及多种无线接入技术长期并存的趋势,多连接技术能够支持多接口终端保持多个网络连接同时通信,将广泛应用于未来异构网络中,各国际标准组织都展开了
中国古代建筑具有悠久的历史传承和辉煌的艺术成就,是中国文化中的一块瑰宝,对中国古代建筑进行建模研究是当前虚拟现实和计算机视觉领域的一项重要热点。古代建筑建模研究的成
计算流体力学(CFD)在航空航天等领域发挥着重要作用,该领域对先进CFD软件有着强烈的需求。随着计算技术的发展,众核构架计算机在大型计算机成为了主流。将CFD程序移植到众核构
本文对运动图像增强与网络环境下图像信息跨尺度分析与融合进行了研究。图像增强是指根据特定的需要突出图像中的重要信息,同时减弱以及去除不需要的信息。网络环境下图像信
随着互联网的不断发展,网络大众的视频消费需求不断增加。流媒体技术由于其具有边下载边观看的特点,能够满足用户快速观看视频节目的需求,已成为大众网络视频消费的主要方式。同
三网融合是指电信网、互联网和广播电视网三大网络通过技术改造实现物理层的互联互通,业务层的相互渗透,具体表现为在技术上趋于一致,且都能为用户提供语音、数据、图像等综
无线感知反应网络,由大量具有数据采集、处理、无线通信能力的微型低功耗感知节点及反应节点通过多跳通信的方式组成,协作完成大规模复杂的监测和控制任务。由于无线感知反应
当前人们享受信息化带来的便利的同时也深受海量数据难以管理的困扰,个人文件同步系统的产生和发展为这个问题带来一个比较好的解决办法。这种文件同步系统通过将个人文件夹内
当今社会互联网技术的飞速发展以及与电信网络不断融合的背景下,VOIP技术在互联网中变得也来越重要,网络中对传输语音视频数据的需求在不断增强。互联网的飞速发展加速了互联
近年来新型社交媒体微博客平台高速发展,已经逐渐成为人们分享、获取信息的主要方式。由于微博客平台用户量急剧增多,用户产生的数据总量呈现爆炸式增长,基于这些信息的突发话题