论文部分内容阅读
随着互联网的飞速发展,通过互联网获取相关信息已经成为现代人获取信息的常用方式。搜索引擎等网络检索系统的出现,加速了网络信息获取的速度和准确性。然而,以搜索引擎为代表的检索系统并不能完全满足用户的搜索需求。为了使搜索结果更加贴近用户当前的搜索需求,搜索排序技术和查询扩展技术极大的提高了搜索的准确率,从而提高了用户的搜索体验。然而,现有的搜索排序通常基于PageRank等传统的排序技术,并没有考虑用户当前的搜索意图,从而导致搜索结果集列表不能满足当前搜索需求而降低了用户的搜索体验。查询扩展也存在类似的问题,由于缺少对用户当前搜索意图的理解,扩展词虽然能够在一定程度上提高搜索的召回率,却因为不能拟合用户当前的搜索兴趣而降低了查询扩展的准确率。
在上述搜索排序和查询扩展问题中,导致搜索结果集不能满足用户兴趣需求的直观原因是搜索系统通常只接收用户输入的查询,随之而来的排序和查询扩展处理仅依据当前查询条件进行处理,而缺少对用户搜索意图的考虑。然而,本文通过观察查询条件发现,导致这种现象的主要原因之一在于查询所存在的一词多义现象。由于一词多义是广泛存在的,所以查询通常也会存在一词多义现象。因此针对查询的每一个含义,都会有一类结果集与之对应。搜索系统对这些结果并不加以区分而仅依据排序算法按照排序值将结果混合在结果集列表中,导致搜索者难以找到符合当前搜索兴趣的结果。针对上述一词多义现象在搜索排序和查询扩展中所引起的问题,本文提出了一种面向一词多义的用户兴趣模型(记为UIMP),拟以该模型为基础处理搜索排序和查询扩展中的一词多义现象所带来的影响。本文研究的主要内容是针对现有搜索结果集排序和查询扩展相关研究中,查询一词多义问题引起的排序以及查询扩展不能很好的拟合用户当前搜索兴趣所导致的排序结果和查询扩展结果不准确的问题。本文的研究目标旨在通过建立查询的一词多义模型和用户兴趣模型,在搜索排序和查询扩展中基于用户兴趣匹配和过滤一词多义中与用户当前搜索目标兴趣相关和兴趣无关的查询的各个含义,从而达到使排序和查询扩展结果更好的拟合用户当前搜索意图的目标。本文在以下方面展开了深入的研究。
(1)面向用户兴趣的一词多义模型(UIMP)。一词多义所导致的搜索排序和查询扩展结果不能拟合用户当前搜索意图的关键原因在于相关处理方法缺少对用户当前搜索意图的获取。本文通过对用户可能兴趣来源的深入分析,选取四类有效的用户兴趣来源抽取用户当前的搜索兴趣,并建立UIMP模型。基于UIMP模型可以选取最有效的用户兴趣,从而确定拟合用户当前搜索兴趣的查询一词多义的某个具体的含义,以提高排序和查询扩展的准确性。
(2)基于UIMP的排序方法。本文通过观察以及相关研究发现,用户在搜索引擎返回搜索结果集列表后,通常只浏览位置靠前的结果。考虑到用户的浏览习惯,搜索排序成为了提高用户搜索体验的关键,而排序恰恰是搜索过程的核心步骤。现有排序方法由于缺少对用户当前搜索意图的获取,导致排序结果仅仅能够拟合大众搜索的排序倾向而对搜索个体的排序体验提升并不明显。因此,本文提出了基于UIMP的排序方法,基于用户兴趣设计排序算法,提高用户感兴趣结果的排序值,从而提高用户的搜索体验。
(3)基于UIMP的搜索目标渐变排序方法。随着互联网信息的不断增多,人们已经不满足于仅用互联网查找相关信息,而是将搜索引擎作为一种发现关联知识的工具,这一点在以探索式搜索为代表的搜索过程中体现的尤为明显。在这类搜索过程中,有一个很明显的特点是用户的兴趣在不断发生变化。因此本文基于UIMP提出了一个兴趣变化模型来处理这类搜索过程的排序结果,使搜索过程中的每个排序结果更加精确并在一定程度上引导用户发掘其感兴趣的关联知识。
(4)基于UIMP的查询扩展方法。现有的查询扩展方法缺少对用户兴趣的考量,导致当查询存在一词多义时,扩展词集合本身就代表不同的含义方向,也可能导致扩展词偏离用户当前的兴趣范围。本文提出的方法是一种基于用户兴趣的扩展词选取方法,旨在通过用户兴趣分析查询的一词多义中各个含义与用户当前兴趣的关联性,基于用户当前的搜索兴趣以决定从查询的某个含义进行查询扩展。由于加入了用户兴趣因素,本文的方法将扩展词集中在当前查询最可能的含义方向上,从而提高了扩展的效率和准确性。
(5)基于UIMP的流行词查询扩展方法。随着搜索技术的不断发展,人们的搜索方式逐渐形成了一定的规律性。本文通过观察发现,从搜索用户总体来看,有相当大比例的搜索者会在一定时间内搜索相同的内容,称之为搜索热点,对应的查询通常包含大量的流行词语。现有的查询扩展方法通常不考虑查询的流行性,而采用统一的查询扩展方法进行处理,导致查询扩展效果不能反映查询本身的搜索热度和用户的搜索兴趣。本文提出基于UIMP的流行性查询扩展方法,建立基于流行查询的一词多义模型,使得查询扩展在处理流行查询时可以获得更高的处理效率。
在上述搜索排序和查询扩展问题中,导致搜索结果集不能满足用户兴趣需求的直观原因是搜索系统通常只接收用户输入的查询,随之而来的排序和查询扩展处理仅依据当前查询条件进行处理,而缺少对用户搜索意图的考虑。然而,本文通过观察查询条件发现,导致这种现象的主要原因之一在于查询所存在的一词多义现象。由于一词多义是广泛存在的,所以查询通常也会存在一词多义现象。因此针对查询的每一个含义,都会有一类结果集与之对应。搜索系统对这些结果并不加以区分而仅依据排序算法按照排序值将结果混合在结果集列表中,导致搜索者难以找到符合当前搜索兴趣的结果。针对上述一词多义现象在搜索排序和查询扩展中所引起的问题,本文提出了一种面向一词多义的用户兴趣模型(记为UIMP),拟以该模型为基础处理搜索排序和查询扩展中的一词多义现象所带来的影响。本文研究的主要内容是针对现有搜索结果集排序和查询扩展相关研究中,查询一词多义问题引起的排序以及查询扩展不能很好的拟合用户当前搜索兴趣所导致的排序结果和查询扩展结果不准确的问题。本文的研究目标旨在通过建立查询的一词多义模型和用户兴趣模型,在搜索排序和查询扩展中基于用户兴趣匹配和过滤一词多义中与用户当前搜索目标兴趣相关和兴趣无关的查询的各个含义,从而达到使排序和查询扩展结果更好的拟合用户当前搜索意图的目标。本文在以下方面展开了深入的研究。
(1)面向用户兴趣的一词多义模型(UIMP)。一词多义所导致的搜索排序和查询扩展结果不能拟合用户当前搜索意图的关键原因在于相关处理方法缺少对用户当前搜索意图的获取。本文通过对用户可能兴趣来源的深入分析,选取四类有效的用户兴趣来源抽取用户当前的搜索兴趣,并建立UIMP模型。基于UIMP模型可以选取最有效的用户兴趣,从而确定拟合用户当前搜索兴趣的查询一词多义的某个具体的含义,以提高排序和查询扩展的准确性。
(2)基于UIMP的排序方法。本文通过观察以及相关研究发现,用户在搜索引擎返回搜索结果集列表后,通常只浏览位置靠前的结果。考虑到用户的浏览习惯,搜索排序成为了提高用户搜索体验的关键,而排序恰恰是搜索过程的核心步骤。现有排序方法由于缺少对用户当前搜索意图的获取,导致排序结果仅仅能够拟合大众搜索的排序倾向而对搜索个体的排序体验提升并不明显。因此,本文提出了基于UIMP的排序方法,基于用户兴趣设计排序算法,提高用户感兴趣结果的排序值,从而提高用户的搜索体验。
(3)基于UIMP的搜索目标渐变排序方法。随着互联网信息的不断增多,人们已经不满足于仅用互联网查找相关信息,而是将搜索引擎作为一种发现关联知识的工具,这一点在以探索式搜索为代表的搜索过程中体现的尤为明显。在这类搜索过程中,有一个很明显的特点是用户的兴趣在不断发生变化。因此本文基于UIMP提出了一个兴趣变化模型来处理这类搜索过程的排序结果,使搜索过程中的每个排序结果更加精确并在一定程度上引导用户发掘其感兴趣的关联知识。
(4)基于UIMP的查询扩展方法。现有的查询扩展方法缺少对用户兴趣的考量,导致当查询存在一词多义时,扩展词集合本身就代表不同的含义方向,也可能导致扩展词偏离用户当前的兴趣范围。本文提出的方法是一种基于用户兴趣的扩展词选取方法,旨在通过用户兴趣分析查询的一词多义中各个含义与用户当前兴趣的关联性,基于用户当前的搜索兴趣以决定从查询的某个含义进行查询扩展。由于加入了用户兴趣因素,本文的方法将扩展词集中在当前查询最可能的含义方向上,从而提高了扩展的效率和准确性。
(5)基于UIMP的流行词查询扩展方法。随着搜索技术的不断发展,人们的搜索方式逐渐形成了一定的规律性。本文通过观察发现,从搜索用户总体来看,有相当大比例的搜索者会在一定时间内搜索相同的内容,称之为搜索热点,对应的查询通常包含大量的流行词语。现有的查询扩展方法通常不考虑查询的流行性,而采用统一的查询扩展方法进行处理,导致查询扩展效果不能反映查询本身的搜索热度和用户的搜索兴趣。本文提出基于UIMP的流行性查询扩展方法,建立基于流行查询的一词多义模型,使得查询扩展在处理流行查询时可以获得更高的处理效率。