结合关联规则的直推式排序算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:laurachenqh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索引擎的重要性与日俱增。如何有效的查找需要的信息是非常关键的,一个好的搜索引擎可以极大的节省用户查找信息的时间。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,排序结果的准确率直接决定了搜索引擎的性能和用户体验。信息检索领域中有许多的网页排序算法,其中以样本对级别方法的模型应用比较广泛。   而排序学习,就是利用机器学习的方法来对一系列的文档或网页进行排序,这种排序方法在近年来获得了许多人的关注。然而,大部分的排序学习方法,只采用了全监督学习的方式。由于全监督学习中,使用的都是已标注的训练样本,而已标注的训练样本比较稀少和昂贵,因此很难获得大量的已标注训练数据。在这篇文章中,我们提出一种直推式的排序学习方式的框架,利用无标注的测试数据来改善我们的训练。我们会从无标注的测试数据中,利用关联规则提取出文档对之间的信息,然后把提取出来的信息加入到排序模型的训练当中。为了要把提取出来的无标注样本的信息结合到需要优化的函数当中,我们重新设计了一种损失函数,在原有的损失函数当中结合了代表未知信息的项,把这种信息和已知的训练数据的信息结合起来,然后用已有的基于样本对的排序学习方法来训练。在本文中,我们把我们所提出的直推式框架与排序支持向量机(RSVM)结合起来,提出一种新的直推式排序学习方法,称为AR-RSVM。   本文在LETOR(TD2003,TD2004,OHSUMED)数据集上进行了实验,并且通过交叉校验的方法来避免过拟合。实验采取了多个评估指标进行衡量。实验结果表明,本文所提出的方法能够有效地结合无标注样本的信息,并能比原有的排序学习方法取得更好的效果。最后,我们还通过了显著性水平分析来说明,从统计的角度来说,改进后的算法也超过了已有的排序学习方法。
其他文献
文本首先采用希尔伯特-黄变换(HHT)对农业物联网系统中基于无线传感器网络(WSN)所采集的样本数据进行了分析。由于无线传感器网络采集的样本均具有非线性、非平稳的特点,而希
本文在总结Vague集现有理论和方法的基础上,运用比较法、经典集合理论和传统的模糊集理论对Vague集进行了较为深入的研究,并对其在模式识别中的应用进行了探讨。主要工作包括:
手写体字符识别是图象处理和模式识别领域中的研究课题之一。字符识别系统一般由图像采集、信号预处理、特征提取、分类识别等几个部分组成。识别系统的识别方式可分为联机手
承诺(commitment)是一个重要的密码原型,它提供隐藏性和绑定性两个基本性质,成为现代密码学许多协议和应用的重要构造元素,如零知识证明、数字签名、身份鉴别、电子投票、电子拍
随着互联网的发展及搜索引擎的广泛引用,针对用户搜索日志的分析与研究有了较快速的发展,并被应用于用户个性化剖析、搜索结果排序调整、搜索关键词修正和建议等等,为搜索引擎及
计算机科学的进步与发展,使得算法变得高效的同时,也越来越复杂。算法的抽象逻辑以及其自身的这利复杂性,使得越来越多的学习者对算法的学习和理解都普遍感到困难。因此,算法演示
双目立体视觉技术是计算机视觉的一种,本文结合双目立体视觉技术,以数字图像为对象,对摄像机标定、物体图像处理、特征点提取、特征匹配和点的三维坐标恢复等问题进行了理论
随着嵌入式技术的发展,智能移动终端越来越普及。其不断扩展的功能与不断丰富的软件支持,使得人们的日常生活越来越便利。并且,现在智能移动终端也越来越多地承担起了用户办
随着计算机应用的普及,很多业务系统被开发出来用于企业的业务流程管理,从而大大降低了企业的运营成本,也提高了企业的生产效率。为了应对市场变化,企业需要根据市场的变化及时调
早期智能卡的出现给人类的生活带来了诸多便利,同时也使得一个用户需要拥有多张卡,此外不同卡商拥有不同的卡开发命令也使得很多应用无法在不同的卡中使用。为了克服这些不足