论文部分内容阅读
随着互联网的普及和互联网内容的不断丰富,如何通过有效的方式获取需要的信息显得尤为重要。搜索引擎很好地解决了这个问题,成为了人们访问互联网的入口。如何对搜索引擎返回的结果进行排序成为近年来研究的热点,另一方面,搜索引擎结果排序的质量也直接决定了用户的使用体验,进而影响搜索引擎的市场份额。本文的研究工作正是以搜索引擎为大背景进行的。纵观各大主流搜索引擎,查询的结果网页通常在经过排序后,以列表的形式返回给用户,排在最靠前的是系统认为最相关,最能满足用户信息需求的网页。近年来,运用大规模数据处理和机器学习技术训练最优排序模型成为学术界的研究热点,国内外研究者先后提出了一系列经典的方法,有些在工业界已经获得了良好的应用,比如排序支持向量机(Ranking SVM)。绝大多数这类方法都属于监督学习的范畴,为了获得一个可靠的排序模型,我们需要标注大量的训练数据,将这些数据输入到特定的学习机,经过一定时间的自动训练,学习机输出得到的排序模型。在排序学习算法的实际应用中,标注数据数量不足,甚至根本没有标注数据的情况经常出现。现有的监督排序学习方法总是需要一定数量规模的标注数据,以保证最终获得的排序模型的可靠性,当标注数据不足时这些方法就无法得到应用。所幸的是,在排序学习算法的实际应用中,我们也发现,虽然目标领域的标注数据不足,但可能还存在另一部分数量较多的标注数据,这些数据来自一个与目标领域不同但相关的领域(我们称之为“源领域”)。如何利用这部分数据来帮助目标领域中的排序学习,以获得改进的排序模型是本文关注的重点。本文针对排序学习实际应用中面临的标注数据不足的问题,充分利用来自源领域的标注数据,引入迁移学习的概念,创新性地提出了基于迁移学习的跨领域排序学习算法,并进行了应用研究。在系统分析排序学习算法的基本假设、损失函数、优化公式和学习算法之后,本文分别在实例和特征两个方面进行迁移学习,给出各自的基本假设、优化公式以及学习算法。最后,本文还研究了我们的方法在文档检索、垂直搜索中的应用。对于基于实例的迁移排序学习,我们首先提出了一个启发式的方法TransRank,该方法首先对源领域标注数据进行两步预处理,然后将处理过的数据和目标领域的少量训练数据一起输入到Ranking SVM,经过训练得到排序模型。随后,我们又提出了一个改进的概率分布算法CLRankins。对于基于特征的情况,根据假设我们提出了一个统一的优化公式,并将其转换成依次优化两个变量的迭代过程。我们还研究了该优化问题和经典的Ranking SVM之间的关系,并通过证明得出,该优化问题可以使用Ranking SVM作为基础学习机。对该优化问题的求解最终形成了基于特征的迁移排序学习算法CLRankfeat。跨领域的迁移排序学习在文档检索中有着广泛的应用前景。本文使用文档检索的一些公共数据集,模拟标注数据不足的情况,通过实验验证了迁移排序学习在文档检索中的应用效果。基于大规模公共数据集的实验表明,本文提出的三个迁移排序学习方法能不同程度地改进目标领域的排序模型。CLRankfeat能在所有的实验数据集上获得5-15%的性能提升;TransRank和CLRankins只能在部分数据集上获得较小的性能提升。同时,我们还在算法敏感性和鲁棒性上,对这些方法进行比较分析。垂直搜索引擎是迁移排序学习的另一个应用场景。新开发的垂直搜索往往没有足够的时间去标注数据以训练排序模型,但我们可以利用其它垂直搜索的标注数据,通过迁移排序学习来获得排序模型,用于新开发的垂直搜索。在实验中,我们使用某商业搜索引擎的查询点击数据,抽取影响网页排序的特征集合,构造实验所需的数据集。实验表明,TransRank能有效提升新闻搜索上的排序性能,节省大约80%的目标领域标注数据。此外,我们还分析讨论了不同特征在迁移排序学习过程中所起的作用。