基于Lucene技术的垂直搜索引擎的研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:xiaozhi_1100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和WWW的迅速发展,Internet上的资源日趋丰富。为了帮助人们在浩如烟海的互联网中获取有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速发展。目前人们在互联网上搜索信息主要是通过Google、百度等通用搜索引擎。一般情况下,通用搜索引擎可以满足用户的需求。然而,当用户只想查询某一具体行业或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心。垂直搜索引擎的出现,正好满足了这些特定的需求。针对某一领域、某一特定人群或某一特定需求建立的搜索引擎称为垂直搜索引擎,它已经逐渐成为人们获取专业网络信息的重要工具。Lucene是一个用Java语言编写的全文索引引擎工具包,它可以方便地嵌入到各种应用中,实现针对特定应用的垂直搜索功能。网络爬虫是垂直搜索引擎的数据来源,它的性能直接影响了信息采集的数量与质量,因此网络爬虫是搜索引擎的重要组成部分。Lucene本身没有提供信息采集的功能,本论文在介绍搜索引擎有关技术和开源网络爬虫Heritrix的基础上,通过对Heritrix进行扩展和改进,实现了一个垂直搜索爬虫,满足了特定的信息采集需求。测试结果表明改进后的网络爬虫的抓取效率较改进前有明显的提高。本论文还针对Lucene在搜索结果排序算法方面的不足进行了改进。改进前的Lucene排序算法根据查询和包含关键字的文档来计算相关度得分,没有考虑网页在互联网中的重要程度,还不能完全适应网页搜索。改进后的页面优先度排序算法在原有Lucene排序算法的基础上,考虑了网页的重要程度这一因素,增加了网页的链接情况来计算网页得分。对比分析的结果表明改进后的排序算法较好地反映了这个因素,把重要的网页排在了靠前的位置。在上述工作的基础上,论文最后设计和实现了一个垂直搜索引擎的原型系统,并提供了系统实现所采用的技术方法和核心代码,为垂直搜索引擎的构建和应用提供了有益的借鉴。
其他文献
随着社会对嵌入式系统性能的要求不断提高,以PCI(Peripheral Component Interconnection)总线为代表的传统总线已经远远无法满足现代嵌入式系统实时性强、功能丰富、拓扑结构
以国家自然科学基金资助课题“基于医学图像的数据挖掘技术研究(60372072)”为背景,应用医学图像数据挖掘中的关键技术和算法开发了乳腺癌病变检测模块;设计开发了组件式动态
随着网络经济时代的到来,推荐系统已经渐渐深入到人们的日常生活中。急剧增长的网络数据,使得用户(消费者)往往难以发现最需要或者最适合自己的信息,拥有一个可靠的推荐系统
本文主要论述QRCode二维条码的译码过程,对采集到的图像进行灰度化、中值滤波、二值化处理,然后根据条码标准所定义的数据编码程序对解析出来的数据进行重组,经过纠错处理最
近年来,随着多媒体技术和计算机网络的飞速发展,作为多媒体数据的重要组成部分,图像数据也正以惊人的速度增长。如何能从这些海量图像数据中高效、快速地检索出所需要的信息
作为IT业关注的焦点和一项极具发展潜力的技术,Web Services定义了应用程序如何在Web上实现互操作性的一套标准,它可以在网络中被描述、发布、查找以及调用。尽管Web Services
Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手
视觉跟踪技术作为计算机视觉领域一个重要的研究方向,是更高层次的动作识别、事件监测和视频分析等的基础,在民用和军事等许多领域得到了广泛的应用。本文对多目标视觉跟踪中的
无线局域网 WLAN(Wireless LAN)有着布线灵活、开通迅速、可移动性、保密性强、抗干扰性好、维护方便及性价比良好等优点,因而存在着巨大的应用市场。然而随着WLAN技术的迅速发
随着嵌入式系统应用开发的深入,它对软硬件的体积大小、成本、功耗和可靠性都提出了严格的要求。嵌入式系统的功能越来越强大,实现也越来越复杂。一个功能强大的嵌入式系统通