基于GPU的并行排序学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:accbacc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎的出现帮助用户在纷繁杂乱的互联网信息中寻找相关的信息,因此检索结果的排序是至关重要的。作为新兴信息检索技术的排序学习算法是解决互联网信息检索问题的新的解决方案。传统排序学习算法是在小规模文本基础上进行,针对互联网信息总量规模快速增加问题,大规模数据对于传统的排序学习算法出现瓶颈,排序学习算法的性能成为未来排序学习研究的一个方向。因此,本文提出新的排序学习算法并结合图形处理器(Graphic Processing Unit,GPU)并行计算技术并验证算法的效果。本文主要研究内容如下:(1)对排序学习算法的相关理论和GPU并行计算进行归纳和阐述,总结现有的排序学习算法,阐述排序学习算法的评价度量准则和并行编程模型。(2)深入分析信息检索技术特点并结合相关度更高的信息更重要的特点,本文采用基于有序对的排序学习算法研究方向。对数据输入空间进行重新划分,以大于偏序关系的文档对作为输入空间。(3)提出一种基于贝叶斯个性化排名框架的排序学习算法,即线性评分排序学习模型(Linear Scoring Learning to Rank Model,LSLRM)。通过估计输入文档对的正确排序而构建的排序学习模型来解决查询排序问题,将排序学习训练模型问题转换为二值分类问题,并对特征进行分析,找出对相关度区分具有决定性的重要特征。(4)算法结合GPU并行编程模型和存储器模型等特点,解决排序学习算法在大规模数据的性能瓶颈。(5)实验证明基于GPU的并行排序学习算法的优越性。将本文算法与RankSVM-Struct等算法在微软亚洲研究院发布的基准实验结果进行对比分析,得到的结论是本文算法总体优于其他算法,在大规模数据集上相对于CPU取得10-11倍的加速比。
其他文献
随着信息技术和计算机网络的发展,计算机对多媒体信息的理解也随着多媒体信息的爆炸性增长而发展的越来越深入。图片匹配是计算机视觉领域的一个基本问题,同时也是图片检索、模
如何提高大规模柔体碰撞检测的执行效率一直是计算机图形学领域的技术难点之一。传统的主流算法是通过选定一种或者多种包围盒(BV),构建包围盒层次结构(BVHs),将碰撞物体之间的碰撞
上世纪八十年代以来,互联网及其技术得到了迅猛的发展,人们从那时开始便进入到了一个称之为“信息爆炸”的时代。互联网的出现和发展不仅使得信息的采集、传输的规模和产生的速
随着信息时代的高速发展,使得二维条码在多个领域内广泛的被应用,但在复杂环境情况下,对所拍摄的二维条码进行解码会受外界条件影响,造成拍摄的条码图像退化,不利于二维条码信息
随着全球信息化的高速发展,计算机网络已经成为了一种不可或缺的信息知识来源,但随之而来的,是网络信息的无限增长。这种无限制的增长带来的是信息资源供给量远远大于资源的需求
机器翻译作为计算机自然语言处理的一个重要分支。近年来,随着计算机计算速度,存储容量的不断提高,基于实例的机器翻译方法越来越受到研究者的青睐。基于实例的机器翻译(EBMT)克
生产调度问题是一类复杂的组合优化问题,在实际生活中存在于多个领域,如铸造业、金属加工业、物流、通讯等。对生产调度问题进行研究的主要目的是使得资源在使用过程中进行合理分配,从而提高资源的利用率及生产效率,合理的调度方案可以大幅提升企业的竞争力。随着社会的发展,生产调度问题逐渐变复杂,从经典调度发展到一类新型的调度,即批处理机调度。批处理机调度问题(简称批调度问题)区别于传统调度的主要特征是一台机器在
基于H.264/AVC编码标准的可分级视频编码(Scalable Video Coding,SVC)可以实现时间、空间和质量三种可分级性编码,以应对网络异构性、终端设备多样性和用户需求个性化等要求。由
在人工智能不确定性问题研究中,如何实现定性概念定量化,是解决多属性复杂系统评价的难点,传统的方法是通过专家依据经验给出定性评价指标的隶属度或隶属函数,经过随机模糊变换实
传统的手写输入法识别过程包括用户输入,单字识别,用户选择以及改错,在这个过程中,不免会打断用户书写过程中的思路,难以保持书写的连贯性,导致输入法的效率低。同时这种输入法识别