论文部分内容阅读
本文主要根据目前网络信息检索存在的查全率和查准率低的特点,采用自动的查询扩展方法提高网络信息检索的性能。查询扩展作为解决词的不匹配问题的一种解决方案,已经引起了国内外很多学者的研究。然而目前查询扩展方法仍然存在很大的缺陷,即无法同时解决自然语言中词汇的同义性和歧义性问题,本文在分析传统查询扩展方法不足的基础上,提出了基于用户兴趣的概念查询扩展方法。该方法首先利用特定的分类目录(如Yahoo分类层次目录),构建特定领域的Ontology知识库,利用概念的查询扩展代替传统的基于关键词的查询扩展,从而消除词的同义现象和歧义现象;其次,该方法利用数据挖掘技术、机器学习等方法自主学习用户的兴趣模型,如根据用户的IE浏览历史记录、用户收藏夹、日志文件等挖掘用户的浏览习惯,构建个性化的查询扩展方法,从而消除查询扩展词的歧义性。本论文通过对查询扩展方法的进一步研究,对于提高Web信息检索的性能具有重大的现实意义。论文的主要工作包括以下方面: 基础理论研究:研究了现有的查询扩展方法的特点以及不足,提出了基于用户兴趣的概念查询扩展方法。通过构建特定领域的ontology知识库和挖掘用户的兴趣主题相结合来消除查询词及扩展词的同义性和歧义性,从而提高网络信息检索的性能。 特定领域Ontology知识库的构建:从Yahoo目录层次中对每一个目录下的文档进行分析,抽取关键词,然后根据特定的关键词集与其对应的文档集形成一个概念,这一概念中的关键词就可以被用来进行扩展。另外,为了防止不同用户对同一概念的不同描述,即同义词现象,可以采用WORDNET中的同义词对概念进行扩充。 用户兴趣建模:消用上述方法建立的ontology知识库为训练样本,对SVM分类器进行训练,然后对用户收藏夹和用户IE浏览历史文件进行分类,从而挖掘用户的兴趣模型。 查询扩展机制:研究在用户初始化查询的基础上,通过结合用户兴趣主题和知识库,提出两种具体的查询扩展方法。 实验结果及评估:简单介绍了为实现基于用户兴趣的概念查询扩展的原型系统的