基于分布式的垂直搜索引擎的研究与实现

来源 :中国航天第二研究院 航天科工集团第二研究院 | 被引量 : 4次 | 上传用户:fly383910564
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球互联网资源急剧膨胀的情况下,搜索引擎技术为人们查找所需资料提供了一个良好的接口。然而,面对通用搜索引擎的信息量大、查询不准确、深度不够等问题,垂直搜索引擎应运而生,它是一种新的搜索引擎服务模式,其特点就是“专、精、深”,只针对特定主题范围内的信息进行检索,检索速度快、信息集中、信息可利用率高。同时,面对海量数据,分布式技术是一个较好的切入点,虽然增加了系统的开销和设计的复杂性,但是可以大幅度提高信息采集和检索的效率,其研究具有巨大的商业价值和广阔的应用前景。本论文对当前搜索引擎的相关技术进行了研究,并结合垂直搜索引擎和分布式的相关技术设计出一种分布式垂直搜索引擎的系统结构,它由网页采集、信息检索及后台管理系统等组成,用于实现网页的抓取、检索以及提供以推荐、导出、二次开发接口为交互形式的信息整合功能,系统功能强大、易用、稳定、人性化。网页采集即网络爬虫WebSpider,它是系统数据的主要来源,并且是一个独立性相对较高的业务产品模块,它的性能直接影响了采集信息的数量与质量。采集底层采用开源项目Nutch作为支撑,实现了一个基于RMI技术的分布式垂直搜索爬虫,它利用动态脚本JavaScript分析技术和XPath技术对特定的元数据信息进行抽取,也可以通过定制编程解析器来抽取元数据,最终将处理完的信息存储到数据库。索引和检索搭建在现阶段比较流行的开源项目Lucene上,分布式采用了Hadoop中调度节点和任务节点的思想,它们之间通过RPC方式进行通信,调度节点会定时通过心跳检查判断分布式系统中可用任务节点。排序算法采用了改进的Lucene积分排序算法,数据去重使用了纯Java开发的轻量级HSQLDB嵌入式数据库,最后设计了功能丰富、样式美观的信息检索前台端展示界面。
其他文献
运动目标的跟踪是计算机视觉、模式识别以及人工智能等学科的一个重要研究内容,广泛应用于安防监控系统中。由于目标运动的多样性和周围环境的复杂性,包括遮挡、目标变形、光照
权限管理模块是web应用系统中重复开发率较高的模块之一。基于B/S的通用权限管理系统的研建将开发人员从重复的开发中解脱出来,使其更专注于业务需求的实现。本文首先对RBAC
移动无线自组织网络是由多个无线可移动的节点组成的一个无固定架构的多跳无线网络。Ad hoc自组网可以满足灾后救援以及战场指挥等特殊场合的通信需求便是得益于它无需任何固
对于PC机而言,开机执行的第一条指令来自主板BIOS。因此BIOS的安全影响着整个计算机的安全。可扩展固件接口(EFI)是英特尔公司为其新一代64位安腾处理器(Itanium)设计的操作
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。基于不确定数据进行数据
近一百多年来,随着东西方文明的不断碰撞,国内知识界翻译了大量的外国文献。在翻译引进的过程中,以汉语为代表的汉藏语系语言受到了以英语为代表的印欧语系语言的影响。这种
随着网络信息资源呈几何级数增长,使用传统搜索引擎技术进行准确、快速、深入地查找所需信息变得越来越困难。针对通用搜索引擎存在的这些缺点,新一代搜索技术--垂直搜索引擎应
随着山西煤矿整合政策的出台,政府强制控制煤炭产量。过去人工方式控制煤矿产量时,由于操作速度慢,容易出错并且效率低下,导致无法准确计量煤炭的实际产量。随着计算机技术和
全过程计算机辅助动画自动生成技术(Full Life Cycle Automatic Generation of Computer Animation)是人工智能理论与现代多媒体技术相结合的全新动画制作技术,它是一个崭新的
软件测试是对软件需求分析、概要设计、详细设计格说明书与编码进行审查,对软件系统进行检测的系统化过程。软件过程模型是对软件测试过程细节的抽象。在长期的研究与实践中,