论文部分内容阅读
随着互联网技术的发展,电子商务在我国的经济建设的地位越来越重要。商品搜索引擎是电子商务网站一个重要的部分,是用户在网站上购物的入口,起到连接一切商品的桥梁的作用。传统的信息检索以简单的模型或规则建立对商品的排序,但是随着商品决策因子的增加,人工加权的简单模型越来越不能适应多维度的海量数据的快速变化。为了发挥机器的计算能力和解放人工计算的繁杂工作,本文研究以机器学习的角度解决商品的搜索和排序。本文从传统信息检索领域出发,研究常见信息检索模型,通过比较和分析排序学习模型的优缺点,建立商品搜索引擎必备的理论基础。 首先本文研究了排序学习模型中Pointwise、Pairwise和Listwise的异同点,对排序学习有了理论上的基础之后,本文详细研究了机器学习中的模型训练和测试过程,为了能够精确处理海量日志数据,本文从特征的选择和学习等角度建立对特征的构造一般方法。其次,本文深入研究了ListNet模型,介绍了ListNet模型中把得分序列转换成概率分布的方法,把整个序列看成实例的Listwise方法是排序学习中最直接、效果最好的方法。ListNet使用神经网络模型,用梯度下降方法来优化算法。最后在研究了排序结果评价方法和损失函数的融合基础上,本文进行了一系列的实验来验证本文所提到的算法的有效性。 实验的结果表明,在电子商务网站的商品搜索中Listwise方法是最自然的表述搜索过程的模型,特征对最后的结果有着非常重要的作用,应该从用户搜索商品这一实际过程出发建立能够影响搜索行为的特征,同时为了评价模型的好坏本文选用了NDCG@k和P@k等多个评价方法,不同的损失函数组合表明PT+LS是最好的组合方式,Pointwise损失函数能够弥补Listwise损失函数的缺点。最后在损失函数的融合方面,本文提到的归一化损失函数融合方法和SHF-SDCG方法都是常用的损失函数融合方法,实验结果表明SHF-SDCG损失函数融合方法无论是采用NDCG@k还是P@k的评价方法都要优于归一化损失函数融合方法。