基于完全加权关联规则挖掘的查询扩展研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:vampirewoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息爆炸时代,信息过量成为人人面对的问题,如何从信息的汪洋大海中高效、准确地查找到所需要的信息一直是信息检索研究的热点之一。然而,目前大部分搜索引擎等web信息检索系统依赖于布尔查询技术和基于关键词机械式的符号匹配,使得人们查询信息时出现难以克服的问题,即信息迷向、信息过载和词不匹配等,致使信息检索系统的查全率和查准率低下。针对这些问题,查询扩展应运而生,并得到蓬勃发展,被国内外专家学者的广泛关注和研究。不同的学者从不同的角度提出了各种查询扩展模型,然而都没有最终解决查全率和查准率问题,更没有从根本上消除用户查询意图与检索结果之间的语义偏差和查询词的歧义问题。本文在分析传统查询扩展算法不足的基础上,将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的查询扩展算法,取得了一些可喜的研究成果。具体的研究主题包括完全加权关联规则挖掘算法及其在查询扩展中的应用两个方面,分别在完全加权关联规则挖掘算法、基于完全加权关联规则挖掘的局部反馈查询扩展以及基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展等三点进行研究和探讨。论文的主要工作如下:(1)深入研究和分析现有的关联规则挖掘、加权关联规则挖掘、项完全加权关联规则挖掘和查询扩展等算法的特点及其不足,并系统地综述了查询扩展的研究进展。(2)在深入研究现有完全加权关联规则挖掘算法的特点和局限性的基础上,提出基于三次剪枝的完全加权关联规则挖掘算法(即MAWAR算法),给出与其相关的定理及其证明过程。该算法采用三种剪枝策略,候选项集数量和挖掘时间明显减少,提高了挖掘效率。实验结果表明该算法的有效性,和现有算法比较,挖掘效率确实得到改善和提高。(3)将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的局部反馈查询扩展算法。该算法利用本文的MAWAR算法,自动从局部反馈的前列初检文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从规则库中提取与原查询相关的扩展词,实现查询扩展。实验结果表明该查询扩展算法的检索性能确实得到了很好的改善和提高。(4)在基于完全加权关联规则挖掘的局部反馈查询扩展算法中,提出一种新的扩展词权重的计算方法,使扩展词的权值更合理;提出基于四次剪枝的挖掘策略,使挖掘效率极大地提高,实验结果表明其挖掘时间比原来的平均减少87.84%。(5)通过实验研究完全加权关联规则支持度、置信度及扩展词数量对查询扩展检索性能的影响。实验结果表明查询扩展的检索性能是受多方面因素综合影响的,并不是单一地只受某一因素影响。(6)为了更好的将关联规则挖掘技术应用于查询扩展,发现一些优秀的查询扩展模型,本文归纳出4类共13种基于完全加权词间关联规则挖掘的查询扩展模型,通过实验分析比较各种扩展模型的检索性能,从中发现一些较优的模型。(7)针对现有基于局部反馈和用户相关反馈的查询扩展缺陷,提出基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩展算法,设计相应的查询扩展检索系统。该系统在不改变用户查询习惯的情况下,根据用户点击浏览文档的时间长短或者是否进行下载操作等查询行为,判断该文档是否与用户查询意图相关,或者是用户感兴趣的。算法能自动对相关的文档进行完全加权关联规则挖掘,构造规则库,从规则库中提取与原查询相关的语词作为扩展词,实现查询扩展。实验结果表明该算法的有效性,其检索性能有了明显的提高。(8)设计和实现查询扩展原型系统,研究如何实现查询扩展原型系统及其数据结构、主要模型和具体的实现代码等等。利用所设计的查询扩展原型系统进行相关的实验,评估本论文提出的有关算法的性能,最后进行实验结果的显著性验证。
其他文献
小飞蓬(Conyza canadensis)为菊科越年生或一年生草本植物,原产北美洲,目前在我国广泛分布,已成为一种常见入侵植物。为了揭示该外来入侵植物种群蔓延的生态学途径,进而对该
在2008年5月18日召开的第7届中国化妆品学术研讨会上,著名化妆品科学家T.Joseph.Lin博士从美国赶来,为大会作"国际化妆品趋势——绿色化妆品"的演讲,得到与会人士的高度评价,
改革开放以来,我国各级国家机关选派了大批干部出国培训,既培养了一批专业化的管理人才,也有一些出国培训的研究成果问世。但是也出现了诸如一些培训知识太浅显,许多培训知识
<正> 詹永明1957年生于杭州。他自幼就受到民族音乐的薰陶,在哥哥的影响下,九岁开始吹笛。十五岁考入浙江省艺术学校,师从著名笛子演奏家赵松庭先生。小詹从艺校毕业后被分配
期刊
以控制流域断面水质为目标,在排污权交易市场中引入交易比率,以解决排污权交易带来局部水质恶化的热点问题。以江苏省无锡市社渎港流域为研究区域,模拟该流域主要点源化学需
<正> 在药剂调配或分剂量工作中,必须进行称量的基本操作。这些操作正确与否会直接影响称量准确性及疗效,甚至能危害病人的健康和生命,所以必须加以重视。
<正>一、引言《英语课程标准》是编制教材词汇和考试说明词表的依据,美国当代英语语料库(COCA)是当今世界上最大的英语平衡语料库,词汇库容高达4.25亿(Davies&Gardner,2010)
<正>夏日的大地骄阳似火,何处寻觅彻底的清凉?即将在七月开业的青岛极地海洋世界,会是满足你体验冰雪极地的神奇乐园。在飞舞的雪花,漂流的浮冰中,享受冰山积雪的至凉酷感,体
多传感器信息融合技术已获得了普遍的关注和广泛的应用,其理论和方法已成为智能信息处理的一个重要领域,证据理论是主要的技术之一。在目标识别系统中,为了获得可靠的识别结
数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识过程。随着Internet迅速发展,互联网上的数据越来越庞大。将数据挖掘的思想和方法应用到Web上,解决W