论文部分内容阅读
为解决Internet上日益严重的“信息过载”和“信息迷航”问题,智能信息检索和个性化信息服务成为目前信息服务研究的重点。设计合理的智能信息检索系统,是实现智能信息检索和个性化服务的基础。由于目前的信息检索技术存在查询词难以准确体现用户查询意图和查询结果松散的不足,本文利用概念格技术进行上述两方面的研究,提出了一个基于概念格的智能Web文本管理系统的系统。首先,主要利用ontology构建知识库,采用基于概念的查询扩展代替以往基于关键词的检索方法,并利用数据挖掘技术,概念格等方法,提供结合领域知识基于概念格的交互式查询扩展,消除查询词的歧义,明确用户查询目的;其次,利用概念格等web文本挖掘工具对检索结果进行组织,按照页面彼此之间的相似程度结合领域知识分为若干组,每组都有一个比较明确的主题,用户可以迅速地扫描每一组并选择那些和他的目标最相关的组。本系统能够结合概念检索和交互式检索的优点,以及对检索结果挖掘重组,克服传统查询的缺陷和不足,从而提高目前信息检索的性能。论文的主要工作包括以下方面:(1)研究了现有的搜索引擎的特点以及不足,提出了一种基于用户交互的的智能web查询方法,利用概念格等web文本挖掘工具结合领域知识对查询词进行扩展,从而提高网络信息检索的性能。(2)特定领域ontology知识库的构建:从Yahoo目录层次中对每一个目录下的文档进行分析,抽取关键词,然后根据特定的关键词集与其对应的文档集形成一个概念,这一概念中的关键词就可以被用来进行扩展。(3)基于云模型属性概化的概念格创建算法:针对实际应用中数据的多值情况,提出了基于云模型属性概化的概念格创建算法,这种划分算法的特点是,所得到的概念反映了此属性中数据在定义域中的实际分布,同时,由于概念的边界是模糊的,不确定的,因而是一种软划分方法,这样所得到的结果集更加符合人的思维,同时又保持了传统硬划分所具有的优点。(4)基于概念格的查询扩展机制:研究在用户初始化查询的基础上,结合领域知识提供基于概念格的交互式查询扩展,消除查询词的歧义,明确用户查询目的。(5)基于概念格的查询结果管理:利用概念格等web文本挖掘工具对检索结果进行组织,可以进