直接寻优的排序学习模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:speedwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索中,网页排序是一个关乎用户体验的重要问题,在海量的数据中如何将用户最关心的网页最先呈现给用户越来越受到人们的重视。排序学习作为最新的研究热点,在网页排序中发挥着举足轻重的作用。排序学习中,一个关键的问题是如何开发一个模型来直接优化信息检索的评价准则,如平均精度(MAP)、NDCG(Normalized Discounted Cumulative Gain),很多方法已经被提出并且被证明是有效的。在排序学习中需要大量的标注数据作为训练集,而数据标注是非常耗费人力的,能不能建立一种通用的模型,只使用一个领域的标注数据就可以为其他领域的数据做预测,这种好奇心驱使着研究人员做出了很多努力,并且也取得了一定的成果。本文中提出一种基于重要性加权方法的直推式模型,通过直接估计测试数据和训练数据的密度比,可以给每个训练查询确定一个权重,体现了训练数据对模型的重要性,针对特定的测试数据训练出特定的排序模型。信息检索的评价准则是不连续的,很多研究者都希望通过寻找一个评价准则的连续上界,然后再在这个上界上做优化。本文从直接对不连续的评价准则进行优化的角度考虑,同时借用AdaBoost和AdaRank的思想,建立了一个直推式模型IW-AdaRank,经实验证明这一模型是有效的,在OHSUMED数据集上的结果优于AdaRank、RankSVM和RankBoost。进化算法是一类借鉴生物界的进化规律演化而来的随机化搜索方法,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定,具有内在的隐并行性和更好的全局寻优能力,适合用于对不连续的信息检索评价准则进行寻优,本文分别建立了基于遗传算法和微粒群算法的排序模型GARank和PSORank,实验结果表明,本文提出的基于进化算法的模型能够比当前流行的排序模型取得更好的性能。
其他文献
随着计算机科学的不断发展,计算技术研究中“让计算服务于人”和运用计算技术解决人们生活中实际问题的思想,越发清晰并被广泛认可。普适计算的发展迎合了这一趋势,移动情境
作为数据密集型应用,科学工作流在执行期间会产生大量具有复杂依赖关系的中间数据。对这些中间数据集的管理直接影响到科学工作流的服务质量和执行效率,因而对这些数据集的管理
纹理合成和转换涉及计算机图形学、计算机视觉领域等多个的研究热点,并且在虚拟现实、计算机视觉等领域都有着广泛的应用。其中为了解决纹理映射中存在的接缝走样问题而提出