论文部分内容阅读
推荐作为海量信息过滤的基本技术方法广泛应用在信息推送和商品推荐等应用领域,需要解决数据稀疏性的难点和推荐的多样性的问题,成为学术和应用领域的研究难点和热点问题。SVD方法在业界得到广泛采用,该方法通过购买和浏览等记录建立人和商品之间的二维关系,并对该关系进行SVD分解建立人和商品之间相关关系的推断。相对于复杂的深度神经网络模型SVD框架在实际中取得较好的效果:同时,广泛使用的移动设备也需要简单而节省能耗的模型以解决移动环境下的智能计算以及推荐问题。另一方面,作为时间序列模型的语言模型,能够表达词之间在时间维度上的依赖关系,以表达语言的语法、内容和表达者的情景状态等。相似地,商品购买者购买商品也受到他的需求(内容)和复杂心理以及环境的影响(情景状态),因此它们之间有较为相似的依赖结构。本文在SVD的框架下,扩展LDA模型到商品推荐上,将自然语言中文本语义识别、语义关联技术扩展到商品推荐领域,挖掘用户行为轨迹数据中体现的商品语义上的依赖,通过隐含空间表达这种依赖关系,建立商品和用户之间的关联。最后,在实际的淘宝数据集上的实验结果表明研究具有方法的有效性。本论文主要工作如下:(1)利用主题模型LDA,对“用户交互的商品轨迹序列”进行建模:将“商品ID”视为“词”、将“轨迹序列中的商品ID集”视为“文档”。利用LDA对“语料”中数据结构的概率表示,以及LDA在主题空间的概括性,将商品在“主题空间”进行自动聚合,并通过将商品映射到“主题空间”,建立商品的特征向量表示,并引入商品在不同场景卜的“语义信息”。(2)在LDA基础上,提出了结合“用户信息”的用户-主题模型U_LDA,以及结合“用户行为信息”的用户-行为-主题模型UB_LDA:改进模型引入了“用户”、“用户行为”信息对主题空间的学习,一方面将“用户”和“用户行为”信息进行在主题空间的自动聚合,并通过将二者映射到“主题空间”,表达对“用户”、“用户行为”的矢量化表示,反映“用户”和“用户行为”在时间维度不同场景下的“语义信息”。(3)在实际的淘宝数据集上进行实验,分别考察模型的推荐结果的准确率、召回率和F1值,并给出了模型与其他推荐算法的对比结果。实验结果表明,改进的主题模型相比于传统的SVD框架具有对隐含空间更好的挖掘能力。