论文部分内容阅读
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,以满足自己的需要。全文检索技术是信息处理的领域中的重要技术,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。
在全文索引方面,本文引入了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新,并根据其特征,设计了优化的查询策略。而且,本文也对访问控制技术尤其是基于角色的访问控制模型进行了研究分析,将全文检索技术和基于角色的访问控制技术结合起来。本文的重点放在了全文检索技术的应用上,对如何利用新技术、改善检索系统的结构、一提高检索系统的性能和效率、加快检索速度、不断适应网络信息发展等方面做了重点研究。
本文使用了基于Java的全文索引引擎Lucene软件包,详细说明了基于角色的站内信息搜索系统的开发过程和方法。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其进行剖析研究进行二次开发,是很有实际意义的工作。在应用方面,本文主要工作是站内全文数据库的设计和实现.其检索子系统在文档数据加工、信息抽取及分类等工作的基础上,完成了索引器、检索器的设计等内容,最终实现了全文检索功能。