论文部分内容阅读
随着互联网的不断发展,从听音乐、看新闻、浏览视频到购买商品,推荐系统早已无处不在,推荐算法逐渐成为各大企业解决信息过载的主要技术手段。现有的推荐算法主要是根据用户或者物品来计算相似度,从而为用户推荐更为相似的物品,但是这已经远远满足不了用户的需求。而随着用户浏览日志的累加和物品信息的完善,与推荐相关的辅助信息也越来越多,这些辅助信息统称为side information,如何有效地结合side information与传统的推荐算法已经成为目前推荐领域的研究热点。传统的推荐算法研究存在如下两个问题:一主要在拟合用户的评分数据,即便使用了部分用户信息或者物品信息,也只能提取浅层次的用户特征或者物品特征,如果能够充分利用海量的结构化和非结构化的数据,就可以挖掘数据的深层次特征,更好地对用户和物品进行建模,从而为用户推荐更有代表性的物品;二是冷启动问题突出,数据稀疏性严重。协同过滤是推荐算法中最常用的一种方法,在工业界和学术界有大量的研究和应用涌现。虽然有些研究已经开始使用side information来提取隐变量,但是仍有提升的空间。本研究基于side information和深度学习提出了一个可以缓解冷启动和数据稀疏性的模型,它将堆叠去噪自编码器和卷积神经网络相结合,分别从用户和物品的角度来提取隐变量,实验表明该模型相比于传统的推荐算法和深度模型具有更好的推荐效果。本文的主要研究成果包括:(1)深入挖掘了side information的潜在特征,并提出了对于不同side information进行分而治之的方法。传统推荐算法主要围绕相似度来进行召回,对于side information的挖掘还不够深入,同时side information之间的交互特征也是目前传统推荐算法处理的短板。本文针对不同的side information设计了不同的特征提取模型,较好地挖掘了side information的潜在特征。(2)结合深度学习在特征提取上的突出表现,基于side information提出了一个混合深度推荐算法PHD(a Probabilistic model of Hybrid Deep collaborative filtering)。PHD算法主要采用堆叠去噪自编码器、卷积神经网络、词向量和概率矩阵分解这四个基础模型,它能很好地处理基于用户的side information和基于物品的side information,也可以同时处理没有二者的情况,具有一定的通用性和实用价值。实验验证PHD能在一定程度上缓解冷启动问题和数据稀疏性的状况。同时本文还对PHD模型进行了优化和并行化研究,进一步加快了PHD模型的训练和收敛。(3)基于PHD算法设计了一个具有良好扩展性的电影推荐系统,该系统主要包括用户登陆、用户评分和用户反馈等功能,并会收集基于用户和电影的side information,基于真实数据集的实验验证表明PHD模型具有较好的推荐效果。本文首先介绍了推荐算法的研究背景和现有问题,并对基于传统方法的推荐模型和基于深度学习的推荐模型做了简要概述,紧接着对于side information和深度学习的推荐模型进行了具体研究,并基于此提出了基于辅助堆叠去噪自编码器和卷积神经网络的PHD模型,然后在四个真实数据集上进行了较为完备的数据实验,最后本文基于PHD模型设计了一个较为完善的电影推荐系统,并对未来的研究工作进行了展望。