基于Solr的企业级检索系统的设计与实现

被引量 : 0次 | 上传用户:tangzai521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是一项伟大的技术,它使人们从浩如烟海的网页中解放出来。企业级搜索引擎是面向企业应用的中小型搜索引擎,可帮助企业处理内部信息,并将各种企业相关的网络信息联系起来,实现资源的共享及整合。木棉检索是面向校园网应用的企业级搜索引擎,也是下一代互联网分布式搜索平台SE6的主要节点搜索引擎。本文在其原有架构的基础上,对一些核心模块及流程做了重新设计,并加入一些新的模块,使系统在性能、扩展性、容错性等能力上有更大的提高。本文针对查询性能的优化,重新设计了查询模块,搜索节点引入了开源企业级搜索引擎——Solr,并设计了分布式网页存储,以一致性哈希为划分策略。在保持原有系统并行查询的特点外,加入了对索引的维护功能,包括增、删、改索引;节点通信方式也由RPC改成了更加开放、标准的HTTP方式,接口更加规范。重新设计后,系统的查询效率得到了提高,开放、扩展性也得到了提升。针对正文管理不规范、生成摘要速度慢、索引冗余等问题,本文设计了网页元数据管理系统。与原有的正文管理方式相比,网页元数据管理更加系统、规范、高效,满足了网页规模不断增长的需求,在存储节点增、删时,能快速重新划分及完成数据迁移的工作。为了提高系统的容错性、扩展性和错误恢复能力,本文设计了动态发现机制。动态发现机制抛弃了原有的节点管理方式,分布式系统里的节点分布等信息统一由动态发现机制维护。通过动态发现机制,在节点新增、宕机、退出、网络异常等情况下,系统依然能保持正常的服务状态,容错能力大大提高。本文最后对整个系统进行了性能评测。评测主要通过索引的建立速度、网页在节点间的分布是否均匀、查询响应速度几个方面进行,并通过与原有系统的对比来评测最终效果。测试的数据来自实验室SE6分布式搜索引擎平台中的校园网在线数据。
其他文献
一元线性回归模型预测是统计学中回归分析结合预测理论的一种方法,有较强的实用性。首先确定两个经济变量之间是否存在线性相关关系,然后用最小平方法求出回归模型并进行预测
佤族的剽牛、砍牛尾巴、立牛头桩等活动具有鲜明的民族特色,是佤族牛文化的重要表现,在中国民族文化大融合中具有民族标志性的作用。佤族牛文化是佤族物质文明和精神文明的结
<正>目次一、复、復、複、覆字义考二、"复奏"并非"覆奏"三、"覆奏"误为"复奏"之原因在当今我国有关中国法制史的著述中,中国古代的"复奏"制度是一个频频被提及和论述的制度
美国可汗学院通过在线视频教学赢得了学习者的认可,其成功原因在于视频制作上独树一帜,视频教学中强调学生的"学",视频内容"专"和"博"有机结合。当前,我国高职院校精品视频公
德国职业教育师资水平世界一流,助推德国职业教育水平和经济发展世界领先。目前我国职业教育发展迅速,师资水平成为制约职教发展的瓶颈,学习和借鉴德国职教师资培养的经验是
保险公司在道路交通事故损害赔偿案件中的诉讼主体地位在法律理论界和审判实务界一直备受争议。本文从保险公司在道路交通事故损害赔偿案件中所涉及的法律关系入手,分析保险
陶瓷是中国古代伟大的发明之一。因其精美的造型、精湛的技术、优良的品质广受人们的喜爱,传播到世界各地,其中东南亚是中国陶瓷对外传播较早的地区。中国陶瓷对东南亚的传播既
互联网快速发展的今天,通信行业的焦点已经偏重于融合通信(unifiedCommunications),经过最近几年的市场培育,中国的企业和个人市场已经逐渐接受了融合通信概念,众多传统通信设备厂
长久以来,人们认为标识导向就是牌子加文字。所以人们习惯把标识称作"标识牌"或"导向牌"。其实这只是标识导向的一种存在形式罢了。标识导向不仅仅指导游指示板,它还包括原本