论文部分内容阅读
搜索引擎作为用户访问互联网的入口,其检索结果是否能够满足用户查询需求直接影响着用户使用互联网的体验。然而,用户的真实查询意图却很难从查询词本身获取,这是由于当前广泛采用的关键词查询与选择性浏览的搜索引擎交互方式使得用户提交的查询词往往简短甚或歧义。针对这一问题,搜索引擎通常采用对检索结果进行多样化处理的策略加以应对。检索结果多样化旨在通过在检索结果中放置与不同内容相关的网页,使得该检索结果能够在尽可能靠前的位置满足不同用户的信息需求。其研究内容主要包括两个大的方面,即如何准确、有效地产生多样化的检索结果以及如何合理评价一个经过多样化后的检索结果的好坏。围绕这两个主要方向,本文从以下几个方面展开研究工作:1.检索结果多样化方法研究:针对当前研究中几乎都是采用贪心搜索算法来近似解决检索结果多样化中的NP-hard问题,本文提出通过利用文档之间存在的局部有序性对全搜索过程进行无损剪枝,以提高全搜索的效率。根据搜索引擎用户在通常情况下只浏览检索结果第一页的事实经验,本文进一步提出了“关键文档”与“搜索窗口”的策略来对全搜索过程进行剪枝。通过实验,我们验证了本文所提出的算法在能够提供足够检索系统进行实时计算的效率的同时,可带来比贪心算法更好的性能。2.多样化检索结果评测方法研究:针对已有的多样化评测方法在评测检索结果时将不同类型的用户意图同等看待的问题,本文首先提出在评测多样化检索结果时,用户不同类型的意图在满足程度上应当具有不同的特征。而后引入衰减函数来刻画这样的特征,且不同类型的意图对应着不同的衰减函数。最后,本文提出考虑了用户意图类型信息的检索结果多样化评测框架,并将用户意图的类型具体到信息类与导航类来详细讨论该框架的特性。通过实验,我们验证了由本文提出的衰减函数所构成的多样化检索结果评测方法优于现有的方法。3.多样化检索结果评测方法的分析方法研究:针对已有的多样化评测方法的评测大都从分析评测方法某一方面的特性,如稳定性、直观性等,来比较不同评测方法的优劣,本文提出通过比较多样化评测方法与用户偏好的相关性来对多样化评测方法进行分析,并提出了基于用户偏好的加权相关性方法来定量计算。该方法通过计算评测方法与用户检索偏好之间的加权相关性,克服了其他方法在评测多样化评测方法时极少考虑到用户行为信息的缺点。