论文部分内容阅读
在信息检索中,网页排序是一个关乎用户体验的重要问题,在海量的数据中如何将用户最关心的网页最先呈现给用户越来越受到人们的重视。排序学习作为最新的研究热点,在网页排序中发挥着举足轻重的作用。排序学习中,一个关键的问题是如何开发一个模型来直接优化信息检索的评价准则,如平均精度(MAP)、NDCG(Normalized Discounted Cumulative Gain),很多方法已经被提出并且被证明是有效的。在排序学习中需要大量的标注数据作为训练集,而数据标注是非常耗费人力的,能不能建立一种通用的模型,只使用一个领域的标注数据就可以为其他领域的数据做预测,这种好奇心驱使着研究人员做出了很多努力,并且也取得了一定的成果。本文中提出一种基于重要性加权方法的直推式模型,通过直接估计测试数据和训练数据的密度比,可以给每个训练查询确定一个权重,体现了训练数据对模型的重要性,针对特定的测试数据训练出特定的排序模型。信息检索的评价准则是不连续的,很多研究者都希望通过寻找一个评价准则的连续上界,然后再在这个上界上做优化。本文从直接对不连续的评价准则进行优化的角度考虑,同时借用AdaBoost和AdaRank的思想,建立了一个直推式模型IW-AdaRank,经实验证明这一模型是有效的,在OHSUMED数据集上的结果优于AdaRank、RankSVM和RankBoost。进化算法是一类借鉴生物界的进化规律演化而来的随机化搜索方法,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定,具有内在的隐并行性和更好的全局寻优能力,适合用于对不连续的信息检索评价准则进行寻优,本文分别建立了基于遗传算法和微粒群算法的排序模型GARank和PSORank,实验结果表明,本文提出的基于进化算法的模型能够比当前流行的排序模型取得更好的性能。