基于Lucene的Web站内信息搜索系统

被引量 : 0次 | 上传用户:zhangchenlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web 搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web 搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。本文首先介绍了Web 搜索引擎的基本原理、核心技术和处理流程,并对如何提高搜索引擎的精确度和相关度进行了深入研究,对其核心算法进行了讨论和评估。本文重点开发了四川省通信管理局Web 站内信息搜索系统。本文从介绍了基于Java 的全文索引引擎Lucene 软件包入手,详细说明了四川省通信管理局Web 网站站内信息搜索系统的开发过程和方法。并且利用PageRank 算法、用户二次检索和重要主页加分等方法,对原有的基础排序算法进行了改进,提高了搜索结果的精确度。
其他文献
经济要发展,社会要进步,人才是关键,谁拥有和保持一支规模大的高素质人才队伍,谁就能在竞争中取胜。公务员是政府职能的具体承担者,也是行政体制和机构改革的具体实施者。他
在当今多元、多变的社会文化背景中,人们要不断地学习并做出选择、判断,调整策略和行动以适应周围环境和意识形态的变化。由于任何价值判断体系都以认知领域的知识为基础(Van
我国近年来的审美文化主要通过审美生活化展示审美的民主化和普泛化,主要彰显的是其正值性意义.这种审美文化的活跃迫使我国高校美学教学务必进行反思和调整,以适应急剧变化
膜蒸馏是近几年发展起来的一种新型膜分离技术,由于它具有某些膜技术所不具备的优点,可望成为一种廉价的高效分离技术,所以受到各界的普遍关注。膜蒸馏过程所用膜为疏水性微
随着计算机网络技术和现代企业管理技术的发展,企业资源计划(Enterprise Resource Planning, ERP)在生产企业将得到普遍和深入的应用。生产计划和采购管理系统作为企业资源计
世界环境的不断恶化以及石油的不断消耗殆尽为电动汽车的开发应用提供了一个良好的发展契机。这也为自动变速器的应用发展提供了一个更加广阔的空间。目前,汽车市场中有四种
语文作为母语教育课程,具有其他课程无可比拟的资源优势和开发利用的广阔途径。对联就是一种重要的语文课程资源。本文从发展历史、主要特点、开发价值、开发策略、教学策略
课外阅读是语文学习的一个重要组成部分,是语文实践活动的重要形式,它的意义深远而广泛。课外阅读能拓宽知识面,养成良好的阅读习惯,提高学生的语文素养;能陶冶情操,培养学生
The study reported in this thesis concerns about students’ affective problems and the researcher is interested in the causes of non-English majors’ affect in
并殖吸虫病是一种常见的人畜共患自然疫源性寄生虫病。该病分布广泛,对人体危害严重。人体感染并殖吸虫病后,主要表现为胸痛、咳嗽、咳铁锈色痰或游走性皮下结节等症状,脑型