论文部分内容阅读
推荐系统是数据挖掘和机器学习领域热门的研究方向之一。在互联网技术飞速发展的大数据时代,推荐系统是解决信息过载的重要技术手段。推荐系统的性能取决于推荐模型或算法对于用户个性化的兴趣和需求的理解。如何利用合理的技术手段,从大规模高维稀疏的用户历史行为数据中,挖掘出用户个性化的兴趣与需求,是当下推荐系统领域的重点研究问题。用户历史行为数据天然以序列(会话)的形式累积在推荐系统中。传统的推荐方法大多采用基于单个样本(Point-wise)的排序推荐框架,独立地预估每个待推荐项目(Item)的排序分数,忽略了近邻项目之间的序列相关性。特别是对于用户喜欢的某一类项目,传统的方法倾向于将相似的项目排到推荐列表前面,造成了推荐内容的同质化。长期如此,传统的方法会影响用户的个性化体验。因此,为了解决上述问题,本文从用户行为序列建模的角度,来挖掘用户历史行为数据中隐藏的个性化偏好信息。一方面,由于用户的个性化偏好会随着时间动态的变化,本文中的这种建模方式可以有效地挖掘出用户实时的兴趣偏好信息,对于提高推荐系统的实时性和精确性有重要作用。另一方面,本文在挖掘用户行为偏好时,提出合理的技术手段来探索用户其它的兴趣需求。该建模方法对于提高推荐系统的长期收益有重要的意义,并且能在一定程度上缓解推荐内容同质化的问题。现将本文的主要研究内容总结如下:(1)针对现有基于用户响应预测的推荐方法中对于特征交互的重要性建模不准确的问题,提出一种基于多尺度注意力机制的因子分解机推荐模型(Dual attentional factorization machine,简称DFM)。DFM中的多尺度注意力网络可以较好地学习组合特征之间的权重关系,对于用户行为偏好的建模较为准确。在对比试验中,DFM取得了较好的实验精度,验证了DFM的有效性。在消融实验中,通过增删不同注意力机制组件,来验证DFM中的注意力网络对于组合特征重要性建模的有效性。另外,本文通过可视化组合特征权重的方法,对实验结果进行可解释性分析。该解释性说明验证了DFM中的注意力网络可以有效学习组合特征的权重,从而提高推荐模型的性能。(2)针对现有序列推荐模型中对于序列依赖性建模不完善的问题,提出了一种基于序列间项目相关性挖掘的个性化序列推荐框架(Inter-sequence enhanced framework for personalized sequential recommendation,简称ISSR)。现有的序列推荐方法注重于对单一序列进行建模,这种建模方式会损失序列间的项目依赖信息。因此,ISSR提出从整体出发,利用图神经网络来对序列间项目相关性(Item correlation)进行建模。并且,ISSR利用循环神经网络对序列内部项目相关性进行建模,然后通过前融合方式来生成最终的用户兴趣表示。最后,利用该兴趣表示来计算待推荐项目的排序得分,从而完成推荐任务。对比实验在四个不同规模、不同稀疏度的数据集上展开。分别对比了经典的序列推荐模型和当下基于深度学习的模型。其中,ISSR取得了较好的实验精度,验证了其有效性。消融实验从两个维度展开:通过将ISSR中用于建模序列间项目相关性模块的图神经网络换成低阶的矩阵分解模型,用来验证图神经网络的作用;以及将ISSR中序列间相关性模块增加到现有的只对序列内部项目相关性建模的对比模型中,用来验证该序列间项目相关性模块的作用。消融实验结果均验证了ISSR中序列间项目相关性模块对于序列推荐模型的重要作用。(3)针对现有基于监督学习的推荐模型无法对推荐系统长期收益建模的问题,提出了一种基于深度强化学习的个性化推荐框架(Deep reinforcement learning based recommendation,简称DRR)。其中,DRR是基于Actor-Critic强化学习框架。Actor部分用来学习推荐策略,Critic部分对当前推荐策略进行评估并优化。相比于其他基于强化学习的推荐方法聚焦在策略的构建和优化上,本文在DRR中重点探索了合适推荐场景的用户状态表示建模方法。在对比实验中,本文分别和传统的监督学习方法(包含矩阵分解方法和深度学习方法)、基于多臂摇臂机(Multi-armed bandit,简称MAB)的推荐方法、以及现有的基于强化学习的推荐方法分别进行了对比,实验结果验证了DRR推荐框架的有效性。另外,在DRR框架中,本文对不同的用户状态表示建模方法进行了对比。实验结果也表明了针对推荐场景构建的用户状态表示模块相比更一般的神经网络的效果更好。(4)针对基于强化学习的推荐模型头部位置推荐效果不理想的问题,提出了一种融合了监督学习和强化学习的混合个性化推荐框架(Supervised reinforcement learning based recommendation,简称SRR)。SRR中引入了一个监督学习模块,其作用是约束当前的推荐策略,防止其偏离用户历史行为偏好较远。因此,本文提出融合监督学习和强化学习的推荐方法,可以在探索用户长期兴趣的同时,提高推荐结果的准确性,尤其是推荐列表的头部位置。实验在多个数据集上展开,分别对基于策略和基于价值的强化学习推荐模型进行了对比。实验结果表明,融合了SRR推荐框架的推荐模型其推荐列表头部位置的精度得到较大的提升。并且,推荐模型的长期收益,如平均奖励等并未出现较大的损失。另外,在案例分析中,本文通过实例化用户的推荐列表的方式,验证了融合SRR框架的模型,其头部位置的推荐精度得到了提升。(5)针对基于强化学习的推荐模型存在训练不稳定的问题,提出了一种能端到端稳定训练的强化学习个性化推荐框架(End-to-end deep reinforcement learning based recommendation,简称EDRR)。本文首先将基于强化学习的推荐模型总结到一个统一的推荐框架中。该框架由嵌入向量模块,用户状态表示模块和推荐策略模块自底向上组成。其中,大多数的工作使用一种‘‘预训练并固定’’的嵌入向量模块。本文详细分析了采取该设定的原因以及可能存在的问题。为了进一步提高模型的推荐效果,本文提出了一个能端到端稳定学习的强化学习推荐框架EDRR。EDRR中引入了一个监督学习模块,其产生的监督学习信号和强化学习信号共同指导模型的更新方向。本文分别将基于策略和基于价值的强化学习推荐模型融入到EDRR框架中,在不同的数据集上展开对比实验。实验结果表明,融合了EDRR框架的强化学习推荐模型可以实现稳定地端到端训练,并且模型的精度也取得了进一步的提升。