论文部分内容阅读
随着互联网的发展,搜索引擎已经成为互联网最重要的入口之一。在搜索引擎的组成部分中,网页排序是搜索引擎设计的核心问题,排序结果的准确性决定了搜索引擎的性能和用户体验。早期搜索引擎的网页排序模型虽然构造方法简单,但手动调参的局限性导致排序效果不够理想。对此,近年来一种新的学习方法-排序学习(learningtorank)越来越多地应用到搜索模型的构造上,以获得更精确的搜索结果。排序学习被广泛应用在文档检索和协同波领域,受到越来越多国内外学者的关注,成为机器学习领域的一个研究热点。 采用机器学习方法的网页排序学习算法主要分为基于Pointwise,Pairwise和Listwise三种类型。本文针对基于Pairwise方法的网页排序算法在查询词的语义模糊性,查询不平等性以及文档对之间没有优先关系等方面的不足,提出了基于查询词聚类与文档相关性等级区分优化的网页排序改进算法。首先通过特征值扩充查询词的含义,构建新的查询词向量空间,利用K-MEANS算法进行查询词的聚类;其次在查询词聚类的基础上,通过平等化每个查询,扩充训练集加大文档不同相关性等级间的区分度并减少不相关文档的噪声影响来提高排序算法结果的准确性。在公开数据集LETOR4.0(MQ2008)上进行实验,采取多个评价指标对神经网络模型优化结果进行衡量,并与基线进行对比。实验结果表明改进算法可以提高排序结果的准确率。 目前对于排序学习的研究主要是从排序算法本身进行优化,而对于特征的选择与重组的研究较少。然而从传统机器学习的研究方法中可知,特征选择及特征组合的方式对于分类等方法的性能有较大的影响。本文提出了基于训练结果模型的特征选择算法。对于每个训练样本中的特征空间,按照第一轮训练结果得到的最佳模型,取权重系数绝对值最高的前N个特征,重新构建训练样本进行训练。同样在公开数据集LETOR4.0(MQ2008)上进行了实验,针对特征子集不同大小的排序结果准确率进行对比。实验结果证明了经过特征重组与选择后的排序结果的准确率得到了进一步的提升。