基于一词多义的搜索排序和查询扩展方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:sea23266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,通过互联网获取相关信息已经成为现代人获取信息的常用方式。搜索引擎等网络检索系统的出现,加速了网络信息获取的速度和准确性。然而,以搜索引擎为代表的检索系统并不能完全满足用户的搜索需求。为了使搜索结果更加贴近用户当前的搜索需求,搜索排序技术和查询扩展技术极大的提高了搜索的准确率,从而提高了用户的搜索体验。然而,现有的搜索排序通常基于PageRank等传统的排序技术,并没有考虑用户当前的搜索意图,从而导致搜索结果集列表不能满足当前搜索需求而降低了用户的搜索体验。查询扩展也存在类似的问题,由于缺少对用户当前搜索意图的理解,扩展词虽然能够在一定程度上提高搜索的召回率,却因为不能拟合用户当前的搜索兴趣而降低了查询扩展的准确率。
  在上述搜索排序和查询扩展问题中,导致搜索结果集不能满足用户兴趣需求的直观原因是搜索系统通常只接收用户输入的查询,随之而来的排序和查询扩展处理仅依据当前查询条件进行处理,而缺少对用户搜索意图的考虑。然而,本文通过观察查询条件发现,导致这种现象的主要原因之一在于查询所存在的一词多义现象。由于一词多义是广泛存在的,所以查询通常也会存在一词多义现象。因此针对查询的每一个含义,都会有一类结果集与之对应。搜索系统对这些结果并不加以区分而仅依据排序算法按照排序值将结果混合在结果集列表中,导致搜索者难以找到符合当前搜索兴趣的结果。针对上述一词多义现象在搜索排序和查询扩展中所引起的问题,本文提出了一种面向一词多义的用户兴趣模型(记为UIMP),拟以该模型为基础处理搜索排序和查询扩展中的一词多义现象所带来的影响。本文研究的主要内容是针对现有搜索结果集排序和查询扩展相关研究中,查询一词多义问题引起的排序以及查询扩展不能很好的拟合用户当前搜索兴趣所导致的排序结果和查询扩展结果不准确的问题。本文的研究目标旨在通过建立查询的一词多义模型和用户兴趣模型,在搜索排序和查询扩展中基于用户兴趣匹配和过滤一词多义中与用户当前搜索目标兴趣相关和兴趣无关的查询的各个含义,从而达到使排序和查询扩展结果更好的拟合用户当前搜索意图的目标。本文在以下方面展开了深入的研究。
  (1)面向用户兴趣的一词多义模型(UIMP)。一词多义所导致的搜索排序和查询扩展结果不能拟合用户当前搜索意图的关键原因在于相关处理方法缺少对用户当前搜索意图的获取。本文通过对用户可能兴趣来源的深入分析,选取四类有效的用户兴趣来源抽取用户当前的搜索兴趣,并建立UIMP模型。基于UIMP模型可以选取最有效的用户兴趣,从而确定拟合用户当前搜索兴趣的查询一词多义的某个具体的含义,以提高排序和查询扩展的准确性。
  (2)基于UIMP的排序方法。本文通过观察以及相关研究发现,用户在搜索引擎返回搜索结果集列表后,通常只浏览位置靠前的结果。考虑到用户的浏览习惯,搜索排序成为了提高用户搜索体验的关键,而排序恰恰是搜索过程的核心步骤。现有排序方法由于缺少对用户当前搜索意图的获取,导致排序结果仅仅能够拟合大众搜索的排序倾向而对搜索个体的排序体验提升并不明显。因此,本文提出了基于UIMP的排序方法,基于用户兴趣设计排序算法,提高用户感兴趣结果的排序值,从而提高用户的搜索体验。
  (3)基于UIMP的搜索目标渐变排序方法。随着互联网信息的不断增多,人们已经不满足于仅用互联网查找相关信息,而是将搜索引擎作为一种发现关联知识的工具,这一点在以探索式搜索为代表的搜索过程中体现的尤为明显。在这类搜索过程中,有一个很明显的特点是用户的兴趣在不断发生变化。因此本文基于UIMP提出了一个兴趣变化模型来处理这类搜索过程的排序结果,使搜索过程中的每个排序结果更加精确并在一定程度上引导用户发掘其感兴趣的关联知识。
  (4)基于UIMP的查询扩展方法。现有的查询扩展方法缺少对用户兴趣的考量,导致当查询存在一词多义时,扩展词集合本身就代表不同的含义方向,也可能导致扩展词偏离用户当前的兴趣范围。本文提出的方法是一种基于用户兴趣的扩展词选取方法,旨在通过用户兴趣分析查询的一词多义中各个含义与用户当前兴趣的关联性,基于用户当前的搜索兴趣以决定从查询的某个含义进行查询扩展。由于加入了用户兴趣因素,本文的方法将扩展词集中在当前查询最可能的含义方向上,从而提高了扩展的效率和准确性。
  (5)基于UIMP的流行词查询扩展方法。随着搜索技术的不断发展,人们的搜索方式逐渐形成了一定的规律性。本文通过观察发现,从搜索用户总体来看,有相当大比例的搜索者会在一定时间内搜索相同的内容,称之为搜索热点,对应的查询通常包含大量的流行词语。现有的查询扩展方法通常不考虑查询的流行性,而采用统一的查询扩展方法进行处理,导致查询扩展效果不能反映查询本身的搜索热度和用户的搜索兴趣。本文提出基于UIMP的流行性查询扩展方法,建立基于流行查询的一词多义模型,使得查询扩展在处理流行查询时可以获得更高的处理效率。
其他文献
学位
学位
学位
学位
学位
学位
智能视频监控是利用计算机视觉和图像处理方法,在不需要人为干预的情况下,对摄像机拍摄的图像序列进行自动分析,实现动态场景中运动目标的检测和跟踪,判断目标的行为。这是随着数字视频技术的发展而产生的一个新的研究课题,其在国防安全、民用事业等多方面有着广泛的应用价值和极大的发展前景。以复杂场景下的运动目标检测和跟踪作为研究内容,对目标检测、阴影消除,目标跟踪及在移动平台实时实现问题等关键技术进行了研究,为
学位
如今,智能便携式移动设备在人类生活中正扮演着无法取代的角色。作为这些设备的持有者,用户本身具备社交属性且他们彼此间存在着社交关系。此外,新型无线网络技术(如5G技术)的迅速发展为移动用户之间的通信提供了强有力的支持。移动用户基于无线网络实现互联,并通过在线社交网络(Online Social Network,OSN)服务(如Facebook和微博)共享信息,构成了传统的移动社交网络(Mobile
在信号场之于无限边界的开放空间域上,构成了继陆、海、空、天的第五空间域,形成了物理空间内人与人、物与物、人与物的动态可交互虚拟空间。国家在无界开放网络空间域上提出保障信息和资源安全和保障关键信息基础设施互联互通的战略要求,势必为网络空间安全重要内容之一的网络异常行为检测和识别研究提出新的挑战。  本文以国家网络空间安全战略为导向,以保障关键信息基础设施互联互通为目标,立足分组交换技术的网络环境,针
物联网作为世界信息产业发展的第三次浪潮,未来发展潜力巨大。物联网是支撑城市智能交通的重要技术。在面向城市交通的物联网环境下,通过改善基础设施、实施城市交通专用道、快速城市交通、轨道交通等多模式,应用先进信息技术,城市交通得到了快速发展,对城市居民出行发挥了重要作用。面向智慧城市交通物联网的图像数据是大数据,基于该大数据,从系统工程的视角出发,在分析交通规划的影响因素及城市交通能力及运行现状调查分析