论文部分内容阅读
随着信息技术的高速发展,互联网已成为目前世界上最大的信息库。互联网信息检索系统的诞生,为几们从互联网上获取信息提供了巨大的便利。然而随着信息检索研究的不断深入,许多学者逐渐意识到了一个影响用户检索满意度的重要因素——用户的多样化需求。而传统的排序模型无法满足这样的需求,于是产生了信息检索领域一个新的研究热点——多样化排序。用户的多样化需求要求信息检索系统在对检索结果进行排序时,必须挖掘用户查询所蕴含的各种潜在意图,在结果列表靠前的位置中尽可能地提供满足用户各种需求的检索结果。在用户潜在意图集合未知的情况下,如何根据用户提交的查询词对结果文档进行排序,从而最大化用户的满意度,是多样化排序问题研究的核心问题和难点。现有的研究成果主要可以归纳为两类:隐式多样化排序和显式多样化排序。它们分别从两种不同的角度对多样化问题进行剖忻和解决,前者大多基于一定的假设,刻画不同文档在信息面蕴含上的差异,在此基础上选择具有差异性的文档子集实现多样化;后者则大多尝试直接对用户潜在意图集合进行估计,在此基础上选择能够满足不同意图的文档子集实现多样化。本文以互联网信息检索中的多样化排序及直用为研究主线,分别从上述两种不同的角度对多样化排序问题进行分忻和解决。首先,从隐式多样化排序方法的关键问题——信息面蕴含的差异性入手,分别从文档相似度比较和信息空间覆盖的角度提出了两种多样化排序方法,一定程度上改善了现有方法容易导致的排序结果冗余问题;然后,从显式多样化排序方法的关键问题——用户潜在意图集合估计入手,提出同时从系统和用户的角度对潜在意图集合进行估计,以获得更好的多样化排序结果;最后基于上述研究成果构建了一个多样化排序系统。本文的刨新主要体现在以下几点:1、提出了一种基于吸收马尔可夫随机游走的多样化排序算法DAlIAR。该算法从文档相似度比较入手,针对现有排序算法Gasshopper的相似度比较策略容易导致排序结果冗余的问题,采用了一种新的文档相似度比较策略,该策略利用了吸收马尔可夫链中状态吸收时间的特性,可以更合理地表示文档在主题蕴含上的差异。实验结果表明,DArAR算法的多样化效果要优于Gasshopper算法。2、从隐式多样化排序方法的出发点入手,把多样化问题形式化为文档集合效用最大化问题,并分析了该问题的NP难特性,证明了目标函数的次模性。在此基础上,提出了一种基于文档相似度比较的多样化排序框架,并对该框架的性能进行理论分忻。该工作一定程度上完善了多样化排序问题研究的理论体系。3、提出了一种基于关键词的多样化排序原型KED。该原型从信息空间覆盖的角度入手,提出用关键词作为与用户查询相关的信息空间的基本元素;针对现有方法只独立考虑词的重要性所可能带来的冗余问题,首次提出对关键词之间的距离进行建模,以刻画关键词在主题蕴含上的差异。实验表明,KED可以较稳定地获得比现有多种隐式多样化排序方法更好的多样化效果;且相比单词,KED抽取的关键词可以明显提高KED的多样化效果。4、提出了一种基于网页主题聚类和用户点击的在线多样化排序算法cRBA。该算法从用户潜在意图集合估计入手,首次提出同时从系统和用户的角度对潜在意图集合进行估计,先利用主题聚类从系统的角度获得对潜在意图集合一个较粗略的估计,然后通过与用户的交互逐渐获得对用户意图的较好估计,从而动态调整文档排序,以满足用户的各种需求。该算法的有效性在实验中得到验证。此外,文中还证明cRBA算法在最坏情况下的性能在一定条件下存在下界。5、设计并实现一个多样化排序系统。该系统既可以利用现有搜索引擎强大的检索能力,又能对搜索结果进行多样化排序,具有一定的实用价值。