论文部分内容阅读
搜索引擎的出现帮助用户在纷繁杂乱的互联网信息中寻找相关的信息,因此检索结果的排序是至关重要的。作为新兴信息检索技术的排序学习算法是解决互联网信息检索问题的新的解决方案。传统排序学习算法是在小规模文本基础上进行,针对互联网信息总量规模快速增加问题,大规模数据对于传统的排序学习算法出现瓶颈,排序学习算法的性能成为未来排序学习研究的一个方向。因此,本文提出新的排序学习算法并结合图形处理器(Graphic Processing Unit,GPU)并行计算技术并验证算法的效果。本文主要研究内容如下:(1)对排序学习算法的相关理论和GPU并行计算进行归纳和阐述,总结现有的排序学习算法,阐述排序学习算法的评价度量准则和并行编程模型。(2)深入分析信息检索技术特点并结合相关度更高的信息更重要的特点,本文采用基于有序对的排序学习算法研究方向。对数据输入空间进行重新划分,以大于偏序关系的文档对作为输入空间。(3)提出一种基于贝叶斯个性化排名框架的排序学习算法,即线性评分排序学习模型(Linear Scoring Learning to Rank Model,LSLRM)。通过估计输入文档对的正确排序而构建的排序学习模型来解决查询排序问题,将排序学习训练模型问题转换为二值分类问题,并对特征进行分析,找出对相关度区分具有决定性的重要特征。(4)算法结合GPU并行编程模型和存储器模型等特点,解决排序学习算法在大规模数据的性能瓶颈。(5)实验证明基于GPU的并行排序学习算法的优越性。将本文算法与RankSVM-Struct等算法在微软亚洲研究院发布的基准实验结果进行对比分析,得到的结论是本文算法总体优于其他算法,在大规模数据集上相对于CPU取得10-11倍的加速比。