基于排序学习的商品搜索算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：itliutao123

【摘要】

：

随着互联网技术的发展，电子商务在我国的经济建设的地位越来越重要。商品搜索引擎是电子商务网站一个重要的部分，是用户在网站上购物的入口，起到连接一切商品的桥梁的作用。传统

【作者】

：

王鹏

【机构】

：

重庆大学

【出处】

：

重庆大学

【发表日期】

：

2015年期

【关键词】

：

电子商务商品搜索排序学习模型损失函数融合 Listwise方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的发展，电子商务在我国的经济建设的地位越来越重要。商品搜索引擎是电子商务网站一个重要的部分，是用户在网站上购物的入口，起到连接一切商品的桥梁的作用。传统的信息检索以简单的模型或规则建立对商品的排序，但是随着商品决策因子的增加，人工加权的简单模型越来越不能适应多维度的海量数据的快速变化。为了发挥机器的计算能力和解放人工计算的繁杂工作，本文研究以机器学习的角度解决商品的搜索和排序。本文从传统信息检索领域出发，研究常见信息检索模型，通过比较和分析排序学习模型的优缺点，建立商品搜索引擎必备的理论基础。　　首先本文研究了排序学习模型中Pointwise、Pairwise和Listwise的异同点，对排序学习有了理论上的基础之后，本文详细研究了机器学习中的模型训练和测试过程，为了能够精确处理海量日志数据，本文从特征的选择和学习等角度建立对特征的构造一般方法。其次，本文深入研究了ListNet模型，介绍了ListNet模型中把得分序列转换成概率分布的方法，把整个序列看成实例的Listwise方法是排序学习中最直接、效果最好的方法。ListNet使用神经网络模型，用梯度下降方法来优化算法。最后在研究了排序结果评价方法和损失函数的融合基础上，本文进行了一系列的实验来验证本文所提到的算法的有效性。　　实验的结果表明，在电子商务网站的商品搜索中Listwise方法是最自然的表述搜索过程的模型，特征对最后的结果有着非常重要的作用，应该从用户搜索商品这一实际过程出发建立能够影响搜索行为的特征，同时为了评价模型的好坏本文选用了NDCG@k和P@k等多个评价方法，不同的损失函数组合表明PT+LS是最好的组合方式，Pointwise损失函数能够弥补Listwise损失函数的缺点。最后在损失函数的融合方面，本文提到的归一化损失函数融合方法和SHF-SDCG方法都是常用的损失函数融合方法，实验结果表明SHF-SDCG损失函数融合方法无论是采用NDCG@k还是P@k的评价方法都要优于归一化损失函数融合方法。　　

其他文献

基于多约束线性离差求解算法的题库系统设计与实现

随着信息技术的发展,计算机技术在教育测量、测试中的应用越来越广泛。以信息技术为基础的计算机化测试,对于提高测试质量和公正、客观、准确的评价测试群体、控制测试误差,

学位

试题数据库组卷算法题库系统设计

基于局部扩充与优化的重叠社群检测算法的研究

生物信息学、社会网络、web分析等方面的发展积累了大量的复杂网络数据信息,及时快速的挖掘出这类数据中的社群结构已成为数据挖掘领域一项重要的工作。传统算法在对社群定义

学位

数据挖掘重叠社群检测局部聚类多核并行计算

多秘密共享及其在密钥管理中的应用

随着计算机技术，特别是计算机网络化的迅速发展，网络服务的日益增多，敏感信息通信的普遍化。信息的保密性，完整性及可用性已受到学术界的高度重视。信息安全也成为信息科学领域研

学位

信息安全多秘密共享密钥管理数据安全

基于蜜罐技术的网络取证研究

网络安全问题越来越受到人们的关注，为了解决网络攻击的简单化和网络防御的复杂化之间的矛盾，网络安全研究开始由单纯的被动防御向主动防御转变，将网络犯罪行为诉诸法律就是主动

学位

蜜罐网络取证网络安全网络攻击网络防御主动防御网络犯罪犯罪诉讼

推荐系统中协同过滤算法研究

信息技术的飞速发展加快了信息的创建和传播速度,使人们能够更加自由的进行知识的分享和交流。但是海量信息的存在也产生了不可忽视的负面影响-信息过载。搜索引擎等信息检索

学位

推荐系统协同过滤相似度稀疏性

基于同心轴的多维数据可视化方法

信息可视化技术自上世纪90年代中期出现并兴起后,正从根本上改变着人们表示、分析和理解大型复杂数据的方式。而多维数据的可视化作为该领域内的经典问题,一直备受研究者的关

学位

信息可视化多维数据可视化平行轴同心轴交叉约简

基于Web论文库的学术领域双语资源研究

双语资源在计算语言学研究领域具有十分特殊的地位,对机器翻译、双语词典编纂、术语抽取、跨语言信息检索等研究和应用提供了有力的支持。对双语资源的研究面临着如下三个问

学位

双语资源爬行器句子对齐机器翻译

基于加权树判定的快速入侵检测模型-WDTBIDM

伴随着计算机网络技术的不断发展,人类信息技术日新月异,网络安全已成为行业应用的重要组成部分。作为网络安全分支之一的入侵检测系统主要识别各种入侵行为和入侵事件,一直

学位

入侵检测累加器信息增益判定树阈值

基于JTAG标准的通用交叉调试代理的设计和实现

交叉调试代理是嵌入式交叉调试系统的重要组成部分,也是使用最为普遍的一种调试方式。但无论是调试桩程序、调试服务器还是ROM Monitor、Rom Emulator这样一些交叉调试代理,

学位

交叉调试交叉调试代理片上调试JTAG标准片上可编程系统

类人机器人地图创建与自定位技术研究及其在路径规划中的应用

作为一个极富挑战性的高技术密集型项目，机器人足球吸引了越来越多的研究和关注。路径规划问题是机器人足球中类人机器人避障比赛中的重要部分，其实时性和稳定性对整个比赛起着

学位

足球机器人类人机器人路径规划地图创建自定位技术

基于排序学习的商品搜索算法研究

与本文相关的学术论文