基于用户兴趣的概念查询扩展研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:a113345103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要根据目前网络信息检索存在的查全率和查准率低的特点,采用自动的查询扩展方法提高网络信息检索的性能。查询扩展作为解决词的不匹配问题的一种解决方案,已经引起了国内外很多学者的研究。然而目前查询扩展方法仍然存在很大的缺陷,即无法同时解决自然语言中词汇的同义性和歧义性问题,本文在分析传统查询扩展方法不足的基础上,提出了基于用户兴趣的概念查询扩展方法。该方法首先利用特定的分类目录(如Yahoo分类层次目录),构建特定领域的Ontology知识库,利用概念的查询扩展代替传统的基于关键词的查询扩展,从而消除词的同义现象和歧义现象;其次,该方法利用数据挖掘技术、机器学习等方法自主学习用户的兴趣模型,如根据用户的IE浏览历史记录、用户收藏夹、日志文件等挖掘用户的浏览习惯,构建个性化的查询扩展方法,从而消除查询扩展词的歧义性。本论文通过对查询扩展方法的进一步研究,对于提高Web信息检索的性能具有重大的现实意义。论文的主要工作包括以下方面: 基础理论研究:研究了现有的查询扩展方法的特点以及不足,提出了基于用户兴趣的概念查询扩展方法。通过构建特定领域的ontology知识库和挖掘用户的兴趣主题相结合来消除查询词及扩展词的同义性和歧义性,从而提高网络信息检索的性能。 特定领域Ontology知识库的构建:从Yahoo目录层次中对每一个目录下的文档进行分析,抽取关键词,然后根据特定的关键词集与其对应的文档集形成一个概念,这一概念中的关键词就可以被用来进行扩展。另外,为了防止不同用户对同一概念的不同描述,即同义词现象,可以采用WORDNET中的同义词对概念进行扩充。 用户兴趣建模:消用上述方法建立的ontology知识库为训练样本,对SVM分类器进行训练,然后对用户收藏夹和用户IE浏览历史文件进行分类,从而挖掘用户的兴趣模型。 查询扩展机制:研究在用户初始化查询的基础上,通过结合用户兴趣主题和知识库,提出两种具体的查询扩展方法。 实验结果及评估:简单介绍了为实现基于用户兴趣的概念查询扩展的原型系统的
其他文献
在生物识别领域里,掌纹识别是一种相对新颖的技术,经过不断的研究和积累,近年来已经形成了相对成熟的理论体系。掌纹识别技术拥有良好的市场潜力,目前已进入市场应用阶段,但
USB技术以其传输速度快、接口简单、即插即用等优点在工程中有着广泛的应用,本论文以开发USB2.0总线接口为主要内容,针对当前经纬仪中数据通讯中,无法长时间判别通讯数据误码
建筑企业的特点是项目分散,跨地域运营,而管理却需要集中,所以,建筑企业网络建设比其他行业建设要困难得多。在国际互联网迅速发展的基础上,产生了虚拟专用网络技术,并开始将这些技
随着社会的发展和计算机存储信息量的激增,从大量数据中提取用于制定决策的信息显得越来越重要。如何从数据中分析和挖掘出对企业业务管理、客户关系管理等有用的信息,成为用
目前,在节能建筑设计和审核是否满足节能标准的要求时,一般是采用软件工具进行。但现有的一些软件往往存在输入复杂,专业性强,用户界面操作不便,要求完备的条件数据等。因此,设计简
学位
本文以天津真美电声器材有限公司为依托,围绕“PDM系统及其在制造业的应用研究”这一课题而展开的。产品数据管理(Product Data Management,简称PDM)是集成并管理所有与产品
最大团问题(Maximum Clique Problem,MCP)是图论中的经典组合优化问题,也是一类NP完全问题。被广泛的应用于许多领域,如人工智能、聚类分析、信号传输、子图同构问题、顶点覆
互联网和计算机技术的发展,使基于网络的远程教育成为一种新的教学手段,学生可方便地从网上教学系统中获取所需的教育资源。但是,目前的网络教学系统在提供教育资源时,大多忽略了
学位