分布式实时垂直搜索引擎研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:abcd9845
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交SNS、新闻等领域的高速发展使得人们愈发的关注在最快的时间内获取实效数据,从中挖掘到有价值的信息,实时搜索因此成为目前信息检索的研究重点。通用搜索引擎拥有海量网页信息集合,更关注于信息的全面性,Google对于最新网页的索引更新平均耗费几个小时,这样的更新速度很难满足网民的实时搜索需求。垂直搜索引擎专业领域性强、信息化集中程度高,目前的实时搜索研究集中在垂直搜索领域,实时垂直搜索针对特定领域和数据源,进行信息的快速检索和展示,为下一步的数据挖掘提供坚实的基础,具有重大的研究价值与经济价值。实时搜索技术难点在于增量索引构建算法及分布式环境下的容灾实现。本文首先研究了垂直搜索引擎和分布式系统基本工作原理。接着针对实时增量索引构建提出了内存+磁盘并行化实时索引构建索引的RSearch算法,RSearch算法采用全量索引写磁盘保证索引数据的一致性与完整性,实时增量索引直接写内存保证增量索引即时展现,内存磁盘、写满后复制至磁盘生成从磁盘索引,采用M*N的分布式模型切分大规模数据和满足高并发的访问需求,引入CommitLog日志机制,持久化实时索引请求,并设置Checkpoint异常回滚时间点,保证实时索引的数据容灾。在RSearch算法和Solr的基础上,构建了分布式实时垂直搜索RSolr系统,并针对RSolr搜索系统中存在的性能瓶颈如区间查询、排序、索引构建等性能进行了进一步优化。实验结果表明,相比较于Solr系统,RSolr系统在索引构建、搜索性能、实时展现、数据容灾备份、分布式性能方面优于前者,验证了RSolr系统的实时性、高效性、稳定性和可用性,证明了RSearch算法的可行性。
其他文献
随着网格计算、P2P计算、普适计算、云计算、Ad Hoc等大规模分布式应用系统的深入研究,互联网已经转变为一种开放式网络环境。传统的集中式访问控制模型已经无法满足开放网络
近年来,随着信息技术的飞速发展,嵌入式产品被广泛运用到人们的日常生活中,嵌入式实时操作系统(RTOS)亦随之逐渐渗透到学术界、工业界等领域。RTOS是对外部事件响应经过优化的操
计算机网络最初设计的目标,只是实现单纯的端到端数据传送,发展至今的互联网,几乎所有的流量都是建立在TCP/IP架构之上,尽管设备性能有了飞跃性的提高,但网络本身的架构却没
21世纪是网络经济的时代,伴随着互联网的迅速发展,internet上的信息量在不断增加,然而如何从浩瀚的信息海洋中得到所需要的信息就显得更加有意义。在信息检索中,搜索引擎使用
社团划分在生物、医疗等方面有着举足轻重的作用,但是随着数据规模的扩大,经典的串行算法已经不能满足人们的需要,为了能够适应大规模数据的发展和信息化时代的到来,社团划分算法
随着城市中交通堵塞情况的越来越严重,出行者对简洁、高效的路径规划算法的要求日益迫切。如何根据现实的道路交通状况构建合理而有效的路网模型,并在路网模型的基础上设计出
外观设计专利是以图像作为专利保护主要对象,利用传统的基于文本关键字检索方式并不能达到好的检索效果。利用基于图像内容的检索技术可以更好地完成相关检索需求。由于外观专
随着信息技术的高速发展和人们获得数据途径的多样化,企业积累的数据飞速激增。由于这些数据里面隐含着很多有用的信息,可以通过数据挖掘来进一步的分析和充分的利用。但是很
随着计算机的诞生,短短的几十年间,计算机网络的发展已经是翻天覆地,从最开始的终端网络,到C/S、B/S网络模式,再到如今的P2P点对点等多种网络叠加的混合网络模式,这些无疑给人们带
随着计算机信息技术的飞速发展,传统的纸张文字已无法满足人们对信息的要求,将纸张文字通过各种扫描设备输入到计算机中,即将传统的纸张文字转化为数字化信息已成为时代的必然趋