面向大规模数据的高效LTR调研系统设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:dabing_12130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
LTR(learning to rank,使用机器学习的方法做网页排序)在商业搜索引擎中起着越来越重要的作用。各大商业搜索引擎都逐渐使用LTR作为搜索网页排序的重要手段。就目前网页排序的发展而言,LTR算法本身对搜索精度的提升已经相对较小,雅虎在2010年举办的LTR算法比赛的结果显示,精度最高的算法和基准算法(GBDT和RankSVM)相比,提升也非常有限,而且这些提升有相当一部分是来自于对训练数据的处理。而随着网页数目的迅速提升,训练集的规模越来越大,LTR需要能够处理这种越来越大的训练集;另外,训练数据的一些非常重要的特征,比如用户点击数据等,会随着时间会快速发生变化,所以训练模型需要快速的进行更新。因此,高效和能够处理更大规模数据是目前对LTR算法的主要需求。除此之外,LTR训练使用的特征较多(可达700特征左右),而这些特征中大部分是带有噪声的,对最终模型的贡献很小,选取合适的特征集合参与训练,既可以提高精度,又可以大大降低训练的时间。怎样选取合适的特征也是LTR研究中的重要部分。LTR调研系统的目的就是快速选出合适的模型供搜索引擎使用,对网页搜索结果进行排序。原始的LTR系统有三个主要问题:缺乏对特征分析和选择的支持;不能处理大规模的数据集;以及训练算法本身的效率较低。这几个问题导致了LTR算法的训练和更新的效率较低,不能适应逐渐增长的数据和快速更新的要求。本文主要针对这三个问题设计实现了新的LTR调研系统,整个系统主要包含三个部分的改进:第一个部分是一个支持大规模数据的可扩展的特征分析平台,利用它进行特征分析,对模型所需特征的选取提供参考,并对最终结果进行一定程度上的解释;第二个部分是一个高效的单机LTR训练算法的实现,可以充分利用新的软硬件环境来提高算法的训练效率;第三个部分是一个用来处理大批量数据的大规模数据树模型的训练平台,包括解决计算资源问题的资源调度模块和支持故障自动恢复的分布式树模型训练模块。最终的结果显示,该调研系统可以将特征和模型参数选择的迭代过程的效率提升一倍以上,并支持大规模数据的处理,在效率和精度两个方面对LTR模型的训练进行提升。
其他文献
该课题来源于海新源变频电器有限公司,目标是实现家用空调无刷直流电动机的无位置传感器控制.该文阐述了无刷直流电动机的特点、发展过程和应用,并介绍了无刷直流电动机在家
该文分析了当前国内外119消防系统的发展状况,结合中国中小城市119系统的现状,开发了一套119火灾自动报警与消防指挥调度系统.该系统利用具有世界先进水平的地现信息系统作为
该文首次研究了微小区制矿井调度移动通信系统所涉及的问题,主要工作及结论如下:(1)根据井下无线传输的特点和对设备体积的要求,工作频率选择为FCC CT-O无绳频段;(2)根据井下
该文在韩京清教授提出的自抗扰控制器的基础上对不确定系统控制进行了一些初步研究.论文主要作了以下工作:1)提出了不确定系统的双重反馈方法;2)提出了自抗扰控制器中状态组
铝电解是传统的高耗能过程,面对当前严峻的能源形势,节能降耗已成为其首要目标。目前铝电解能效优化途径主要是从电解机理分析或实际生产经验中获得,忽略了过程数据对标对能效优
作为机器人领域中的一个重要分支,地面自主移动机器人在近几年来越来越多地应用于工业、家庭等典型的室内结构化环境。随着人工智能、物联网和大数据等学科的不断发展,地面自主
电动执行器是自动控制系统的关键配套设备,目前国内的产品故障率高,性能指标低,维护难度大。鉴于此,智能研究所承担了省科委的科研项目《B系列步进电动执行器的研制》,并在工作中结合当前计算机、电力电子、变频调速、数字通讯和机电一体化等最新技术,研制了一种新型电动执行器。 新型电动执行器的伺服电机采用开关型磁阻电机(Switched Reluctance Motor,简称SR电动机),SR电动机具有
图像包含了景物的很多原始信息,但人眼生理特性决定了人眼对亮度或颜色的分辨能力远不能达到常见数字图像本身具有的分辨力,使得图像中的景物信息可能无法被人眼完全感知到。图
该文给出了一种基于位移矢量场运动估计新算法,它可以地帧间位移大于像素和有缩放、旋转等形变的序列图象的运动场.为避免位移场在运动边界处因过平滑产生的误估计,提出了用
该文研究了遗传算法及其在硬件进化中的应用,并初步建立了基于遗传算法的硬件进化技术的研究框架.硬件进化是一种硬件自适应能力,代表了未来硬件技术的发展方向.硬件进化依靠