基于改进关联规则的学术文献语义查询扩展研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:jimmyhill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在进行信息检索时,如何能够快速、精确地查找到符合用户查询目的的信息并反馈给用户,是目前的研究热点之一。当前所使用的检索系统大部分基于关键字匹配和布尔技术进行信息匹配。随着信息量的增长,在进行检索时,很容易导致大量相关信息无法反馈和信息过载等问题。针对上述问题,众多专家学者将重点聚焦在查询扩展这一解决问题的有效方案上,使其得到了迅猛发展。行内专家主要提出了基于全局聚类分析、全局潜语义索引、局部聚类分析、统计词典、语义词典、局部反馈、用户日志等扩展模型,这些模型均一定程度上解决了检索过程中出现的问题,但由于这些方法本身存在的缺点以及对语义的理解程度不高,并非是这一问题的最佳解决方式,仍存在诸多不足之处。本文通过研究总结关联规则挖掘技术和查询扩展技术的相关理论,在分析各种经典算法缺点的基础上,将关联规则和术语词表两种技术结合起来,提出了基于改进关联规则挖掘和术语词表二次筛选的查询扩展算法,并实验验证了该方式的可行性及有效性。本文研究重点在于关联规则挖掘算法的改进,和将其与术语词表结合起来应用到查询扩展中。论文具体研究内容如下:对关联规则相关理论和经典挖掘算法进行了较为深入的分析和研究,总结其特点及其不足,并指出目前应用较广的优化方式。对查询扩展各种方法的进展和优缺点进行了系统的阐述。综合目前各种挖掘算法优劣、本文研究对象(学术文献)的特性、算法实现可行性及有效性等综合因素,提出基于散列技术来对FP-GROWTH算法进行改进,并使用测试集对基于散列技术改进FP算法的挖掘效率和原始FP算法进行对比分析。最终的实验验证了基于散列技术改进FP算法的可行性,及其挖掘关联规则时在效率上的提高。与未改进的FP-GROWTH算法相比,挖掘时间缩短了 50%以 上。将关联规则和术语词表,两种可独立应用到查询扩展中的技术相结合。提出基于改进关联规则和术语词表的查询扩展算法。扩展过程中使用基于散列技术改进的FP-GROWTH算法,挖掘初始查询反馈给用户的前N篇(最终实验确定N=30),并将满足Min_sup的关联规则提取出来,构成与原查询相关的候选扩展词集。通过人机交互,将候选扩展词集反馈给用户,使用户根据提供的术语词表对候选扩展词集进行二次筛选,对扩展词集中的词汇按照重要程度排降序,选择前M列(本次实验中M=2)添加到原查询检索词中,构成最终查询词。设计实验实现查询扩展算法。使用Lucene开源全文检索代码包来构建本地检索系统,和以Lucene为应用主体的IKAnalyzer轻量级开源中文分词工具包进行分词。为了解决IKAnalyzer分词粒度太细,术语被切割的问题,基于本文中抽取的术语词构造扩展词表,进行中文分词,解决类似“关联规则”被切分为“关联”“规则”两部分的情况。利用所设计的查询扩展流程和框架进行相关实验,评估关联规则和术语词表相结合的扩展方法的性能。实验结果表明使用关联规则和术语词表相结合的查询扩展方法提升了对用户检索意图的理解能力,检索性能得到了较大幅度的提升。查准率提升了 19.2%,反馈结果前20篇文档中,用户感兴趣文档检出率上升了 46.1%。实验结果表明使用基于关联规则和术语词表的查询扩展算法能获得很好的效果。
其他文献
当前,我国经济发展进入新常态,经济发展速度转向中高速增长,经济发展要求提质、增效、升级。但我国发展面临着诸多问题和挑战,国际贸易摩擦、国内经济发展动力不足、生态环境恶化、社会矛盾突出等问题制约着我国发展水平向更高阶段迈进。在党的十八届五中全会第二次全体会议上,习近平同志适时地提出了“创新、协调、绿色、开放、共享”的新发展理念。新发展理念是包括新型城镇化发展在内的我国各方面事业高质量发展的指挥棒、红
5G(5th Generation)提出了两个最明显的需求,以用户为中心和更高的系统容量。在5G时代,运营商的运营、优化必然由以网络为中心向以用户为中心迁移。传统的QoS(Quality of Ser
作为人力资源管理的重要组成部分,绩效考核是当前研究的重点和难点,而绩效考核指标的构建和适当的评价方法又是绩效考核能否取得成功的关键。企业通过建立科学的的绩效考核指标体系,运用恰当的绩效考核方法,不仅有利于提升员工素质,增强自身履职能力,而且可以提高整个单位的竞争力。B银行县支行是B银行在县域地区的分支机构,近年来,县域支行在推动地方经济金融协调发展、改善金融服务和推进金融创新方面做出了重要贡献,但
为了满足中国联通业务发展的需要,从根本上解决综合采集工作中长期以来存在的问题,改善中国联通综合采集预处理系统能力,提高中国联通在日益复杂的市场环境中的核心竞争能力,
近年来,数据挖掘技术作为机器学习、人工智能、统计学等学科的交叉产物,已经成为数据研究领域的热点。越来越多的数据以流的形式出现在各个领域,例如:天气预测、网络搜索、网
随着信息技术的发展和科技力量的提升,移动通信系统不断升级,移动设备不断更新换代,移动互联网变得更加方便与快捷。现今,新媒体新技术的发展对高校图书馆提出了新的要求。图
在图像处理中,编辑图像的光照信息是一个基本问题,对图像的光照重建和编辑是图像处理和编辑的一个关键技术,并在计算机图形学和计算机视觉的研究中已成为一个热点话题。例如,
随着计算机技术和互联网技术的发展,电子文件已经深入人们生活的方方面面,成为生活中信息的重要载体。与此同时,从企业到个人,电子文件网络泄露事件导致的重要信息被窃取时有
互联网前所未有的发展,彻底改变了我们的生活方式,软件发挥的作用也随之越来越突出,已经渗透到我们生活的各个层面,从而导致人们对软件质量的要求也越来越高。众所周知,软件
医学图像融合技术有效解决了单一模态医学成像对于人体组织器官信息成像的局限性,提高医学影像信息的利用效能,这对于医学临床诊断具有重要的理论研究意义和实际应用价值。多