基于Hadoop的分布式垂直搜索引擎研究与设计

来源 :河北工业大学 | 被引量 : 13次 | 上传用户:feicuisenlinviolet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络技术日趋成熟,互联网上的站点越来越多,信息量非常的巨大。但是由于网络技术的发展与网络资源增长速度加快,网络信息的用户也越来越多,相比之下,传统综合搜索引擎存在覆盖率范围有限、返回结果多而繁杂、更新周期长以及查询歧义等诸多问题。与此同时,信息多元化的不断增长,不同用户的检索需求存在很大差异,传统综合搜索引擎已不能有针对性地满足不同的检索需求。且目前成功运营的商业搜索引擎大部分采用了集中式体系结构,系统对单台服务器性能要求高,易出现故障、扩展性差等。针对这些缺点,一个性能佳、容错好、扩展容易、分类细致精确、数据全面深入、更新及时的分布式垂直搜索便应运而生。分布式是指多台服务器构建一个集群,服务器之间相互协调进行工作;垂直搜索是指针对某一行业的专业搜索,其特点是“专、精、深”,具有鲜明行业特色,是通用搜索引擎的细分和延伸。本课题采用Hadoop搭建了分布式集群,然后对开源搜索组件Nutch和Solr进行源码分析,接着深入了解搜索引擎相关理论知识和研究搜索引擎的关键技术,在此基础上借鉴已有学术成果,在主题相关性判别、网页检索排序等方面做了一些改进,利用领域本体知识构建钢铁领域本体库,扩展用户查询条件,使信息的定位和查找更加的精确,最后修改开源搜索组件源代码基于Hadoop设计并实现了分布式垂直搜索引擎雏形,并与百度商业搜索引擎比较搜索结果,对实验结果进行分析和评价后,证明本系统具有明显的主题倾向性,查准率优于通用搜索引擎。
其他文献
梳理国内外学者对产业集群竞争力的研究成果,利用GEM基本模型设计评价指标体系,利用变异系数法确定指标权重,利用均值化法对数据进行无量纲化处理,最终创建基于GEM模型的汽车
语言学从反讽的类型与功能出发,挖掘和总结反讽的基本内涵。在追溯其形成的条件以及发展的过程中,可以发现浪漫主义反讽之前的反讽如何从修辞的角度扩展到了文学的领域,继而开启
目的:探讨输尿管镜、ESWL、哈乐3种方式治疗输卵管下段结石的效果。方法:收治输尿管下段结石患者552例,对其临床治疗方式进行综合性评估。结果:ESWL组一次碎石成功率低于URL
本文主要探讨了数学建模和数学实验课程的设置方式,将传统的二者单独衔接授课改进成围绕主题目标的综合式教学方式,将数学建模和数学实验的教学放在同一次课程中结合实现,从
下法出自清代医家程钟龄的《医学心悟·医学八法》,是指通过泻下、荡涤、攻逐等使停留于体内的燥屎、冷积、瘀血、结痰、停水等从下窍而出,以祛邪除病的一类治法。故临床
纵观语言学发展历史,语言学从刚以科学的身份出现时对其是否是科学的争论到牢牢树立起作为社会科学的一个主要分支地位,经历了一系列的演变和发展。语言学在中国的发展与该学
以南方电网各工程采用的交流滤波器C1电容器保护配合策略及运行情况为研究对象,对三种不平衡保护原理的优劣进行分析,指出当前计数法不平衡保护原理中存在的动作灵敏性、准确
本文主要针对广播的发展状况,探讨广播从广播网络化到网络化广播的一些发展变化。主要介绍了如何会产生这些变化,以及网络化广播的特点和优势。使人们认识到网络与广播之间密不可分的关系,以及今后网络化广播发展的方向。