论文部分内容阅读
随着互联网的发展,搜索引擎的重要性与日俱增。如何有效的查找需要的信息是非常关键的,一个好的搜索引擎可以极大的节省用户查找信息的时间。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,排序结果的准确率直接决定了搜索引擎的性能和用户体验。信息检索领域中有许多的网页排序算法,其中以样本对级别方法的模型应用比较广泛。
而排序学习,就是利用机器学习的方法来对一系列的文档或网页进行排序,这种排序方法在近年来获得了许多人的关注。然而,大部分的排序学习方法,只采用了全监督学习的方式。由于全监督学习中,使用的都是已标注的训练样本,而已标注的训练样本比较稀少和昂贵,因此很难获得大量的已标注训练数据。在这篇文章中,我们提出一种直推式的排序学习方式的框架,利用无标注的测试数据来改善我们的训练。我们会从无标注的测试数据中,利用关联规则提取出文档对之间的信息,然后把提取出来的信息加入到排序模型的训练当中。为了要把提取出来的无标注样本的信息结合到需要优化的函数当中,我们重新设计了一种损失函数,在原有的损失函数当中结合了代表未知信息的项,把这种信息和已知的训练数据的信息结合起来,然后用已有的基于样本对的排序学习方法来训练。在本文中,我们把我们所提出的直推式框架与排序支持向量机(RSVM)结合起来,提出一种新的直推式排序学习方法,称为AR-RSVM。
本文在LETOR(TD2003,TD2004,OHSUMED)数据集上进行了实验,并且通过交叉校验的方法来避免过拟合。实验采取了多个评估指标进行衡量。实验结果表明,本文所提出的方法能够有效地结合无标注样本的信息,并能比原有的排序学习方法取得更好的效果。最后,我们还通过了显著性水平分析来说明,从统计的角度来说,改进后的算法也超过了已有的排序学习方法。