基于排序学习的商品搜索算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:itliutao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,电子商务在我国的经济建设的地位越来越重要。商品搜索引擎是电子商务网站一个重要的部分,是用户在网站上购物的入口,起到连接一切商品的桥梁的作用。传统的信息检索以简单的模型或规则建立对商品的排序,但是随着商品决策因子的增加,人工加权的简单模型越来越不能适应多维度的海量数据的快速变化。为了发挥机器的计算能力和解放人工计算的繁杂工作,本文研究以机器学习的角度解决商品的搜索和排序。本文从传统信息检索领域出发,研究常见信息检索模型,通过比较和分析排序学习模型的优缺点,建立商品搜索引擎必备的理论基础。  首先本文研究了排序学习模型中Pointwise、Pairwise和Listwise的异同点,对排序学习有了理论上的基础之后,本文详细研究了机器学习中的模型训练和测试过程,为了能够精确处理海量日志数据,本文从特征的选择和学习等角度建立对特征的构造一般方法。其次,本文深入研究了ListNet模型,介绍了ListNet模型中把得分序列转换成概率分布的方法,把整个序列看成实例的Listwise方法是排序学习中最直接、效果最好的方法。ListNet使用神经网络模型,用梯度下降方法来优化算法。最后在研究了排序结果评价方法和损失函数的融合基础上,本文进行了一系列的实验来验证本文所提到的算法的有效性。  实验的结果表明,在电子商务网站的商品搜索中Listwise方法是最自然的表述搜索过程的模型,特征对最后的结果有着非常重要的作用,应该从用户搜索商品这一实际过程出发建立能够影响搜索行为的特征,同时为了评价模型的好坏本文选用了NDCG@k和P@k等多个评价方法,不同的损失函数组合表明PT+LS是最好的组合方式,Pointwise损失函数能够弥补Listwise损失函数的缺点。最后在损失函数的融合方面,本文提到的归一化损失函数融合方法和SHF-SDCG方法都是常用的损失函数融合方法,实验结果表明SHF-SDCG损失函数融合方法无论是采用NDCG@k还是P@k的评价方法都要优于归一化损失函数融合方法。  
其他文献
随着信息技术的发展,计算机技术在教育测量、测试中的应用越来越广泛。以信息技术为基础的计算机化测试,对于提高测试质量和公正、客观、准确的评价测试群体、控制测试误差,
生物信息学、社会网络、web分析等方面的发展积累了大量的复杂网络数据信息,及时快速的挖掘出这类数据中的社群结构已成为数据挖掘领域一项重要的工作。传统算法在对社群定义
随着计算机技术,特别是计算机网络化的迅速发展,网络服务的日益增多,敏感信息通信的普遍化。信息的保密性,完整性及可用性已受到学术界的高度重视。信息安全也成为信息科学领域研
网络安全问题越来越受到人们的关注,为了解决网络攻击的简单化和网络防御的复杂化之间的矛盾,网络安全研究开始由单纯的被动防御向主动防御转变,将网络犯罪行为诉诸法律就是主动
信息技术的飞速发展加快了信息的创建和传播速度,使人们能够更加自由的进行知识的分享和交流。但是海量信息的存在也产生了不可忽视的负面影响-信息过载。搜索引擎等信息检索
信息可视化技术自上世纪90年代中期出现并兴起后,正从根本上改变着人们表示、分析和理解大型复杂数据的方式。而多维数据的可视化作为该领域内的经典问题,一直备受研究者的关
双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问
伴随着计算机网络技术的不断发展,人类信息技术日新月异,网络安全已成为行业应用的重要组成部分。作为网络安全分支之一的入侵检测系统主要识别各种入侵行为和入侵事件,一直
交叉调试代理是嵌入式交叉调试系统的重要组成部分,也是使用最为普遍的一种调试方式。但无论是调试桩程序、调试服务器还是ROM Monitor、Rom Emulator这样一些交叉调试代理,
作为一个极富挑战性的高技术密集型项目,机器人足球吸引了越来越多的研究和关注。路径规划问题是机器人足球中类人机器人避障比赛中的重要部分,其实时性和稳定性对整个比赛起着