论文部分内容阅读
随着互联网信息的快速增长,搜索引擎和信息检索技术成为人们获取信息的有效工具。在搜索引擎背后,则是一系列排序算法在起作用。其中最重要的一类方法是学习排序算法,也就是使用统计机器学习的方法,输出一个排序模型,用其对网页进行排序。统计学习理论就是从本质上研究统计机器学习的理论框架,以及探讨学习算法的性能的研究课题。学习排序问题在近年来,已经成为机器学习和网络搜索领域非常重要的一个研究课题,然而关于它的理论研究却仅有少数工作,究其原因,是因为,排序问题要比传统的分类问题或者回归问题更加复杂,从而导致传统的统计学习理论无法直接应用。这就对创新和发展统计学习理论提出了更高的要求。本文立足于实际需求,根据学习排序问题的内在特征,提出了学习排序问题的理论框架,并在该框架下研究了推广性和一致性的统计学习理论问题,创新并发展了传统的统计学习理论,开启了一个新的理论分支,统计排序理论。
首先,我们发掘了学习排序问题的本质特征--查询词,创新的提出了两层的统计学习模型,将查询词看作外层独立同分布的随机变量,将文档看作是内层依赖于查询词的条件独立同分布的随机变量,从而自然的将查询词纳入到了学习排序问题的框架中,并很好的描述了学习排序问题的三种方法,单点型,点对型和列表型算法。在该框架下,我们定义了查询词级别损失和查询词级别风险,首次实现了学习目标与评价准则的一致性。
其次,我们在该框架下,研究了学习排序算法的推广性问题。对于单点型和点对型排序算法,我们提出了查询词级别稳定性的概念,给出了一个一般的查询词级别的泛化界,我们利用该结果对信息检索中经典算法Ranking SVM和新兴算法IRSVM进行了对比,对经典算法RankBoost和其变种算法进行了分析,并使用试验验证了我们的理论结果;对于列表型排序算法,我们使用统计中的Rademacher Average理论,给出了一个一般性的泛化界,并对三种现实中常用的列表型排序算法ListMLE,ListNet和RankCosine进行了讨论。这些结果不仅可以对算法进行理论分析,同时也为改进已有算法和设计新算法提供了理论指导。
再次,我们研究了学习排序方法的一致性问题。我们给出了学习排序问题的真实损失,讨论了最优排序的存在唯一性条件,并给出了学习排序方法一致性的一个充分条件。我们的结果比以前的工作更加广泛和一般,并且可以涵盖以前在分类问题中得到的一些结果,从内在揭示了排序问题与分类问题的关系。