面向精准检索的查询日志挖掘技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lubiaofs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展,网络信息呈指数级增长。搜索引擎已经成为人们从网络中获取信息的重要工具之一。依据用户输入的查询,当前主流的搜索引擎通常采用关键词匹配机制进行检索并将结果返回给用户。然而由于用户提交的查询通常简短且富有歧义性,基于关键词的匹配机制通常不能充分地满足用户精准检索的需求,因此如何帮助用户准确地找到所需信息也就成为了一个重要的研究方向。  查询日志记录了丰富的用户搜索行为信息。前人的研究工作表明,通过查询日志挖掘和分析可以有效地提升搜索系统的性能。本文围绕面向精准检索的查询日志挖掘技术,从三种不同的粒度:查询主题、查询子主题以及查询中的实体,开展了研究工作,挖掘有助于用户查询意图理解的信息,进而提升搜索系统的性能。论文的主要工作和创新点如下:  1.基于翻译模型的查询会话检测方法  为了满足特定信息需求,用户经常向搜索引擎提交一系列连续的查询。在这种情况下,仅仅依靠单个查询有时难以分析用户的查询意图。因此,确定用户查询所在的会话上下文对于分析查询意图进而实现精准检索来说非常重要。查询会话检测(Query Session Detection)的目的是检测出用户针对某个特定需求而连续提交的系列查询。传统的查询会话检测方法大都基于查询词的比较,无法解决词语不匹配问题——有些主题相关的查询之间并没有相同的词语。针对上述问题,我们提出了一种基于翻译模型的查询会话检测方法。该方法将词与词之间的关系刻画为词之间的翻译概率,从而有效地解决词语不匹配问题。同时,我们也提出了两种基于查询日志的词翻译概率估计方法:第一种方法基于查询的时间间隔,第二种方法基于查询的点击URLs。实验结果表明,相比基于查询词比较的会话检测方法,我们的方法取得了3.51%的F值提升。在解决词语不匹配问题上,相比基于维基百科的显式语义分析方法,我们的方法取得了9.78%的准确率提升。  2.基于相似度全局学习的查询子主题挖掘方法  用户提交的大部分查询都具有歧义性或者宽泛性。查询的不同解释或者侧面对应着不同的查询子主题。相比查询会话从单个用户的视角去分析查询意图,查询子主题从全局用户的视角来分析查询意图。确定查询子主题有助于搜索结果展示的结构化,进而帮助用户快速获取所需信息。传统的查询子主题挖掘工作大都基于人工定义相似度的聚类框架,同时需要启发式地决定子主题数目。本文提出一种基于相似度全局学习的查询子主题挖掘方法,该方法不仅综合考虑了多种因素对相似度的影响,而且还考虑了子主题数目对相似度的影响。具体来说,该方法首先将推断查询子主题数目转化为结构预测问题,然后利用全局结构同时考虑多种因素来学习相似度。相比人工预先定义相似度的方法,基于相似度学习的方法能够产生更好的查询子主题。在真实的查询日志上的实验结果表明,相比人工预先定义相似度的基准系统,基于相似度全局学习的方法取得了13.14%的准确率提升、15.35%的召回率提升以及14.26%的F值提升。  3.基于图模型的查询日志实体与属性联合挖掘方法  实体与属性是用户表达查询意图的重要载体。前人的研究工作表明,大部分查询都包含实体。从查询日志中挖掘实体与相应的属性有助于分析查询意图。实体和属性抽取通常被当作两个单独的任务来完成。这样做法的主要缺点是忽略了这两个任务之间的紧密联系:1)一个重要属性应该被一个类别的大部分重要实体所拥有;2)一个重要实体应该持有所属类别的大部分重要属性。上述紧密联系可以用来同时提升实体抽取系统和属性抽取系统的性能。因此,我们提出一种实体与属性联合挖掘的方法。该方法首先从查询日志中收集给定类别的大量实体与属性候选,并用图模型建模这些实体与属性候选间的关系,然后基于实体与属性间的关系利用图增强方法来联合挖掘实体与属性。实验结果表明,相比基准系统,联合挖掘方法在实体集扩展和属性抽取任务上都取得了性能提升。
其他文献
随着网络技术的蓬勃发展,在互联网上出现了越来越多的音乐下载服务以及在线音乐播放服务,而在这背后是海量的数字音乐。一个问题是当用户在接受这些服务的时候,往往面对过多的资
传统的主存储器DRAM由于制造工艺的束缚,其集成度已经很难再攀新高。另外,DRAM又受限于能耗高等问题,给计算机系统带来了巨大的挑战。新型存储器PCM(phase change memory,相变存储
近些年来,家庭网络技术迅猛发展,多种家庭网络技术共存。由于不同家庭网络技术之间存在广泛的异构性,致使不同家庭网络的设备无法互操作。本文围绕异构家庭网络互操作问题进行了
频繁模式挖掘是许多数据挖掘问题的核心任务,并有广泛的应用。人们对数据隐私和信息安全的关注,往往限制和阻碍正常的挖掘任务。如何在基于隐私和安全考虑的环境中,很好地实施频
随着企业信息化应用的深入,大型企业产生需要将各部门的遗留系统集成为企业应用。EAI技术的出现就是用来解决企业内部的应用程序和商业过程的集成问题。由于各部门的遗留系统
为了更迅速地响应市场需求,从而获得最大的商业价值,软件开发组织需要进行快速的迭代开发,并频繁发布产品。这种轻量级的敏捷过程强调人、过程和工具之间需要进行频繁交互。这导
2015年度,我国A股市场频频出现暴跌踩踏场面,其惨烈程度超过1997年的香港金融风暴。作为套期保值和投机做空的主要工具,以股指期货合约、ETF基金为代表的金融衍生品交易,成为股市
高性能计算是世界各国竞相发展的高科技技术,而集群系统是高性能计算技术的主流方向。人类对计算机性能的要求是无穷无尽的,在诸如网上电子商务,预测模型的模拟,DNA计算,数据
随着时空数据库和智能交通系统的发展,如何解决最小代价路径的查找问题,逐渐成为热点。在道路网络的应用当中,用户真正感兴趣的,一方面是行驶时间最小的路径(最快路径),而这会随着
随着软件技术在各个领域应用的不断拓宽和加深,以及软件技术本身的不断发展,软件的数量、规模与复杂性也在不断的增长。特别是在网络环境下,“软件即服务”逐渐从概念转化为现实