基于Lucene和Heritrix构建搜索引擎的研究和示例实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:songjuan119004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。 搜索引擎(SearchEngine)网站是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术己经经历了三个发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究主要集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。 论文首先介绍了Lucene这种在开源社区里构建全文检索系统和搜索引擎使用得最广泛的技术,分析了它的架构以及主要工作原理。构建搜索引擎,需要使用网络爬虫对网络资源进行分析,抓取。接下来,论文就对网络爬虫Heritrix进行了深入的分析,对各个核心部件进行了详细介绍。然后,在前面研究的基础上,设计实现了一个搜索引擎示例,演示了它的功能,论文对示例的设计思路,实现细节进行了阐述。论文的最后一章,在深入分析高级搜索技术的基础上,对性能提升的策略进行了总结,实现了搜索优化以及性能提升。在附录部分,对Lucene的分析器进行了分析,并且实现了一个中文分析器,加入到示例中,提高了示例搜索结果的准确度以及搜索结果的范围。
其他文献
移动Ad Hoc网络(Mobile Ad Hoc Networks)是由一组移动节点组成的具有动态拓扑结构的无线移动分组网络。这种网络结构在灾难救助、探险等通信基础设施无法覆盖或遭破坏的环境
SIP协议凭借其简单、易于扩展、便于实现等优点越来越得到业界的青睐,它已经成为NGN(下一代网络)和3G多媒体子系统域中的核心协议,并且市场上出现越来越多的支持SIP的客户端
在医学领域中,保护患者的基本信息、诊断信息等医学数据的安全,具有至关重要的意义。数字水印技术已经成为解决影像数据安全的重要手段。为了便于传输,普遍采用将隐秘信息以
计算机网络在满足人们快捷的共享资源的同时,也频繁的受到攻击和非法的访问,网络安全问题受到了广泛的关注。入侵检测系统是一种主动的安全防护技术,作为网络安全中一个重要
基于视频序列的运动人体检测是当前计算机视觉和模式识别领域的一个重要研究方向,在图像图形处理、智能监控、视频编码等领域有着重要的地位。本文构建了一个基于视频序列的
分布式拒绝服务(Distributed Denial of Service,DDoS)是由拒绝服务(Denial of Service,DoS)发展而来的一种攻击手段,通过耗尽网络和服务资源的方式,达到阻碍正常用户使用服
三维重建的工作主要分为两个方面,一方面是空间位置重建,也就是几何重建;另一方面是外观重建,也就是纹理重建。对于前者,目前的手段发展相对成熟;对于后者,作为三维重建的一个
近年来,RFID技术已广泛应用于生产、物流、交通、运输、医疗、防伪、图书管理、设备跟踪和资产管理等领域。但由于外部环境干扰和射频信号的不稳定性,RFID阅读器所产生的数据
硬度是材料的重要力学性能指标之一,它表示材料表面抵抗局部塑性变形和破坏的能力。近年来,随着人们不断深入研究与应用,硬度的检测在很多方面都取得了可喜的进展,研究出了几
近年来,计算机硬件的飞速发展为计算机仿真的发展提供了坚实的基础,计算机仿真已经在很多的领域得到了应用,成为对许多复杂系统进行分析、设计和评估时不可缺少的重要手段。