论文部分内容阅读
信息检索的核心问题是排序,即如何把用户最需要的信息排列在返回列表前面。目前信息检索排序方法主要分成两类:一类是以网页文档内容为基础,判断文档和用户查询的相关性的方法;另一类则是以网页链接分析为基础,判断网页在网络中的重要程度的方法。两类方法都有各自重要的意义,对于满足用户需求有很强的互补作用。一般的检索策略是选择其中的一种排序结果作为排序依据,而这样仅选择单一的排序方法的策略,越来越难满足用户对于检索结果准确率的要求。因此,信息检索领域开始了排序方法融合的研究。此方面最有成效的研究就是排序学习方法。它的基本要领是以机器学习模型为基础,以信息检索排序方法作为特征,以文档和用户意图的相关性为判断条件,训练排序模型,对文档进行排序,从而有效地提高了排序准确率。本文在前人的排序学习研究基础上,主要对模型和损失函数进行了研究,进一步提高了排序学习模型的相关性预测能力。本文主要研究工作包括以下三方面:(1)对于已有的Listwise方法损失函数进行研究,探索改进Listwise方法的可能性;针对已有的Listwise框架损失函数所存在的问题,提出了一种基于组样本的排序学习框架,并对其进行改进。提出了两种组样本的构造方法:一种是One-group样本,该样本是由一个相关性较高的文档与一个相关性较低的文档集合构成的;另一种是Group-group样本,该样本由一组相关性较高的文档集合与一个相关性较低的文档集合所构成。根据这两种组样本定义不同的损失函数用于训练排序模型的。实验表明:基于组的排序学习方法能够有效的改善已有似然损失函数和交叉熵排序学习方法的性能;对于排序学习组样本的研究能够有效地提高检索结果的排序准确率。(2)排序学习的特征选取对于排序模型的预测结果有着很大的影响,而排序学习对其特征领域的研究却很少,有鉴于此,本文基于两方面的考虑对排序学习特征进行了研究。第一,探索如何利用已有的排序学习特征为基础,挖掘新的特征构造模式,采用半监督学习方法,利用奇异值分解方法,从非标注语料中获取新的特征;第二,探索如何构建新的特征,用于排序学习模型的训练。以往的信息检索方法倾向于选择单一的方法和参数作为排序的唯一标准,而对于一种模型来说,单一的方法或参数很难发挥该模型的全部功效,本文以语言模型方法为基础,采用多内容域、多平滑方法、多参数的形式构造排序特征,用以丰富特征空间,同时将排序学习应用于语言模型多种平滑方法的融合,有效地提高了语言模型方法的相关性排序准确率。在Letor数据集上的实验结果,表明将新特征集合加入到已有的排序学习特征空间后,能够显著地改善已有的排序学习方法排序准确率,因此本文所提出的特征提取方法能有效地改善排序模型的性能。(3)排序学习方法虽然源自于信息检索中的相关性排序问题,但是其模型和思想亦可用于信息检索的其他领域。社会化标注是一种很好的资源,提供了大量的有助于改善检索效果的信息,然而已有的查询扩展方法从社会化标注中提取扩展词,对原始查询性能的改善效果并不显著,因此本文采用排序学习方法对从社会化标注中进行扩展词提取,通过排序学习方法构造词排序模型将其应用于查询扩展过程当中,用于提高查询扩展方法的性能。在TREC数据集上的实验结果表明,基于排序学习的查询扩展方法在改善信息检索性能方面,要好于已有的基于伪相关反馈的扩展词提取方法,并为排序学习方法应用于其他领域的研究提供了一个新的思路。