论文部分内容阅读
在进行信息检索时,如何能够快速、精确地查找到符合用户查询目的的信息并反馈给用户,是目前的研究热点之一。当前所使用的检索系统大部分基于关键字匹配和布尔技术进行信息匹配。随着信息量的增长,在进行检索时,很容易导致大量相关信息无法反馈和信息过载等问题。针对上述问题,众多专家学者将重点聚焦在查询扩展这一解决问题的有效方案上,使其得到了迅猛发展。行内专家主要提出了基于全局聚类分析、全局潜语义索引、局部聚类分析、统计词典、语义词典、局部反馈、用户日志等扩展模型,这些模型均一定程度上解决了检索过程中出现的问题,但由于这些方法本身存在的缺点以及对语义的理解程度不高,并非是这一问题的最佳解决方式,仍存在诸多不足之处。本文通过研究总结关联规则挖掘技术和查询扩展技术的相关理论,在分析各种经典算法缺点的基础上,将关联规则和术语词表两种技术结合起来,提出了基于改进关联规则挖掘和术语词表二次筛选的查询扩展算法,并实验验证了该方式的可行性及有效性。本文研究重点在于关联规则挖掘算法的改进,和将其与术语词表结合起来应用到查询扩展中。论文具体研究内容如下:对关联规则相关理论和经典挖掘算法进行了较为深入的分析和研究,总结其特点及其不足,并指出目前应用较广的优化方式。对查询扩展各种方法的进展和优缺点进行了系统的阐述。综合目前各种挖掘算法优劣、本文研究对象(学术文献)的特性、算法实现可行性及有效性等综合因素,提出基于散列技术来对FP-GROWTH算法进行改进,并使用测试集对基于散列技术改进FP算法的挖掘效率和原始FP算法进行对比分析。最终的实验验证了基于散列技术改进FP算法的可行性,及其挖掘关联规则时在效率上的提高。与未改进的FP-GROWTH算法相比,挖掘时间缩短了 50%以 上。将关联规则和术语词表,两种可独立应用到查询扩展中的技术相结合。提出基于改进关联规则和术语词表的查询扩展算法。扩展过程中使用基于散列技术改进的FP-GROWTH算法,挖掘初始查询反馈给用户的前N篇(最终实验确定N=30),并将满足Min_sup的关联规则提取出来,构成与原查询相关的候选扩展词集。通过人机交互,将候选扩展词集反馈给用户,使用户根据提供的术语词表对候选扩展词集进行二次筛选,对扩展词集中的词汇按照重要程度排降序,选择前M列(本次实验中M=2)添加到原查询检索词中,构成最终查询词。设计实验实现查询扩展算法。使用Lucene开源全文检索代码包来构建本地检索系统,和以Lucene为应用主体的IKAnalyzer轻量级开源中文分词工具包进行分词。为了解决IKAnalyzer分词粒度太细,术语被切割的问题,基于本文中抽取的术语词构造扩展词表,进行中文分词,解决类似“关联规则”被切分为“关联”“规则”两部分的情况。利用所设计的查询扩展流程和框架进行相关实验,评估关联规则和术语词表相结合的扩展方法的性能。实验结果表明使用关联规则和术语词表相结合的查询扩展方法提升了对用户检索意图的理解能力,检索性能得到了较大幅度的提升。查准率提升了 19.2%,反馈结果前20篇文档中,用户感兴趣文档检出率上升了 46.1%。实验结果表明使用基于关联规则和术语词表的查询扩展算法能获得很好的效果。