论文部分内容阅读
近年来,电商行业发展的越来越好,并且深刻改变了人们的生活方式,网上购物已成为人们生活中不可缺少的一部分,但同时也带来了许多烦恼。现在电商网站上充斥着太多的商品,用户要花很多时间和精力才能搜索到自己想要的商品,如何快速而准确地为客户提供他们喜欢的商品成为必须要解决的问题,因此便产生了推荐系统。推荐系统可以根据用户的历史数据比如历史浏览记录、购物车记录、收藏夹记录、下单记录等信息,学习用户的偏好和需求,进而为其推荐商品。推荐系统中常用的算法是协同过滤算法,该算法依赖于“用户评分矩阵”,但是电商网站上商品巨多,而用户只会购买其中一小部分商品,导致“用户评分矩阵”十分稀疏,因此推荐效果也不理想。而协同过滤中常用的矩阵分解方法,是从评分矩阵中学习隐因子向量来分别表示用户和商品,这在一定程度上可以缓解稀疏性问题,但同样也会导致推荐不透明问题。随着电商平台上用户参与度越来越高的同时也产生了大量的用户产生内容(UGC),例如用户的社交信息、隐性用户反馈、评论文本的情感、用户对实体评论的文本内容等等。这些用户产生内容中包含着许多有价值的信息,比如对商品和服务的建议以及个人喜好等等,因此这些信息可以成为推荐系统可靠地信息来源。本文针对评分数据稀疏和推荐结果不可解释的问题,提出了一种新的用户评分预测模型:基于注意力机制的双向GRU网络,利用深度学习技术挖掘用户评论文本中的隐藏信息,与评分矩阵共同学习,缓解评分矩阵的稀疏性问题,提高评分预测的精确度。本文提出的用户评分预测模型主要包括三方面:首先,创建两个基于注意力机制的双向GRU网络,分别称为“用户注意力网络”和“商品注意力网络”,这两个网络分别对用户评论文档和商品评论文档建模,从中抽取用户特征和商品特征,以此表示用户偏好和商品特征;然后,将抽取到的文本特征引入到概率矩阵分解模型中,作为用户、商品隐因子的先验均值,以此来对概率矩阵分解模型进行正则化,使其能够在不可预见的测试数据集上有良好的表现。最后,提出一种新的优化模型参数的计算框架,不同于以往模型中通过建立一个总损失函数对所有参数同时进行训练优化,本文采用的方法是按照特定顺序迭代更新每一个参数。当一个参数更新时,其他参数固定为常数,这种优化方法很好的缓解了因参数之间的相关性而影响模型训练的问题。最后,本文采用Amazon评论数据集中的三个子类对模型进行验证。通过本文的研究工作,最终得出以下结论:(1)电商平台用户和商品总体数量巨大,但是每一个用户购买的商品总数相对来说只占很少一部分,因此导致用户-商品评分矩阵十分稀疏。而通过对数据集中评论文本长度进行分析,大部分商品的评论文本长度都高于50,这说明评论文本可以解单一评分数据的稀疏性问题,因此可以将评论文本融入到评分数据中一起进行研究分析。(2)通过采用深度学习技术对评论文本进行处理,可以获取更精确和全面的文本特征。因为双向GRU网络可以捕捉到序列中的语义信息和上下文信息,注意力机制可以获取与特定主题相关度较高的信息而忽略不太重要的信息,因此可以处理较长的文本序列。(3)采用按特定顺序迭代更新每组参数的优化方法,在一组参数进行更新时,其他所有组参数固定为一个常数值,这种迭代训练方法可以缓解参数之间的依赖性,少模型训练时间。