基于RankBoost的排序函数学习算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:jintaijing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网发展至今已有20年,现在从互联网上可获取的信息数据量已经非常庞大。为了在有限的时间和精力下最快地掌握最关注的信息,人们越来越依赖于计算机对相关信息的排序处理。排序问题具有非常重要的意义,它一直是信息检索研究领域的一个研究热点。 最早用于解决排序问题的方法是基于传统的排序模型来解决,它通常利用少量的文本特征,由人为设定和调整模型参数,不但利用的信息特征少而且缺乏灵活性。然而近来一些经典的机器学习技术被越来越多地应用到信息检索的研究上,特别是在排序问题的研究上用机器学习的方式来训练排序函数,这类算法被称为排序函数学习算法(Learning to rank),其相关研究逐渐成为信息检索的一个热门研究方向。 本文经过对排序函数学习算法现阶段的各种经典设计方法进行调研,基于当前最好的pairwise型的RankBoost排序函数学习算法框架,提出两种针对文档排序问题的算法设计:(1)利用排序问题中特别重视排序结果的前几位样本的特点,增强出于当前排序结果中靠前的样本的权值,使其在下一次的机器学习中获得更多的重视;(2)利用基于图的相关理论,对学习获得的排序函数的打分做了局部平滑的正则化处理,让相似的文档获得尽量接近的分数。本文在公开的LETOR数据集上采用交叉校验法进行实验对比,实验结果显示了本文提出的两种算法设计相对于基准算法的排序性能都有所提高,说明了合理地利用排序问题的特性以及借助其他领域的模型特点对排序函数学习算法研究都是很有帮助的。
其他文献
无线传感器网络是由部署在监测区域内的大量节点通过自组织和协调而形成的多跳网络系统,节点间通过相互协作来完成网络监控任务。在无线传感器网络中,介质访问控制协议(Mediu
层次细节(LOD,Level of Detail)技术的研究是随着三维可视化技术的不断发展而开始的。Clark最早提出了层次模型的概念,层次模型的自动建立过程被称为模型简化。此后出现了大
学位
网格是网络发展的必然产物,同时也是网络分布式并行计算的重要支撑平台。伴随着网格技术的进步和发展,网格用户对网格系统的服务质量(QoS)提出了更高的要求。由于网格中的资
学位
随着汽车电子嵌入式技术的迅速发展和广泛应用,汽车电子对嵌入式操作系统的需求也越来越紧迫。在我国,汽车电子嵌入式操作系统开发起步较晚,且技术难度较大,已经成为制约我国汽车
学位
随着Internet的迅速发展和不断普及,Web日志资源越来越多,而如何利用这些海量数据来更好的为用户服务成为当今的研究热题。Web日志挖掘把传统的数据挖掘技术应用到Web日志中,
随着办公自动化系统的广泛应用、原始数据的大量积累,使得很多高校开始关注于数据综合利用和管理问题,这些高校自身不具备较高程度的数据综合利用能力,而这些数据却又复杂的存在
随着嵌入式技术和虚拟仪器技术的不断融合,嵌入式虚拟仪器的应用日益广泛,研究一种高效的嵌入式虚拟仪器的开发方法就显得迫切而重要。可重构技术是指器件可以根据情况对自身
搜索引擎是人们检索互联网信息的一个重要工具。它由爬行器、索引器、查询器等3个部分组成。网页索引器是建立搜索引擎的一个关键组成部分,它负责对网页爬行器抓取下来的网页
人脸是人类日常情感表达和交流最重要、最直接的载体。人脸姿态估计是指根据单张人脸图像或从人脸图像序列确定头部在三维空间姿态角度的技术和方法。作为计算机视觉及人脸识
学位
模型驱动体系结构(MDA)是一种软件开发新方法,它以“模型”来驱动软件开发过程中的需求分析、设计、构造、部署、操作、维护及修改。他的主要目标是,提高系统的可移植性、互操作