论文部分内容阅读
近年来,随着互联网技术的不断发展,信息数据的总量与复杂度在飞速增加,信息过载已成为社会所面临的核心问题。推荐算法作为解决信息过载的重要方法,一直是学术界与工业界研究的焦点领域。传统的推荐算法大多是面向显式反馈而设计,由于隐式反馈数据的自身缺陷,面向隐式反馈的推荐算法效果并不理想。随着深度学习技术的愈加成熟,将神经网络与推荐算法相结合已成为推荐算法研究的热点。神经协同过滤模型是其中的代表性工作之一。该模型通过神经网络克服了隐式反馈数据的缺陷,得到了较好的推荐结果。然而神经协同过滤存在以下不足:在数据处理阶段模型生成的隐向量携带的有效信息较少,不能很好的代表用户与项目的本质属性;该模型使用参数量较多的多层感知机神经网络,模型收敛时间较长,不适合对时效性要求较高的推荐场景。1)针对神经协同过滤模型生成隐向量携带有效信息较少的问题,本文提出了基于变分自编码器的神经协同过滤模型,模型使用变分自编码器生成用户与项目的隐向量。相较于神经协同过滤简单的将用户与项目的ID数据通过独热编码生成隐向量的方式,变分自编码器使用用户历史行为记录生成稳定性的随机变量分布函数,有效地去除了隐式反馈数的数据噪音与数据冗余,根据此随机变量分布函数生成的隐向量能更好的代表用户与项目的本质属性。此外,该模型重新设计了神经网络结构,在网络底层融合了用户与项目之间的线性特征与非线性特征,使模型能更全面的提取用户与项目之间的潜在特征。基于变分自编码器的神经协同过滤模型相较于主流的推荐模型性能平均提升了2.5%。2)针对神经协同过滤模型收敛时间较长的问题,本文提出了基于降噪自编码器的卷积神经协同过滤模型。该模型使用结构较为简单的降噪自编码器快速生成用户与项目的隐向量。与神经协同过滤模型不同,此模型将用户与项目的隐向量进行二维嵌入生成特征交互图作为神经网络的输入。相较于向量连接等简单操作,特征交互图能携带更多的高维信息。模型使用卷积神经网络提取用户与项目的高维潜在特征。得益于卷积神经网络参数共享机制与强大的高维特征提取能力,基于降噪自编码器的卷积神经协同过滤模型相较于基于变分自编码器的神经协同过滤模型在模型收敛时间大幅减少的情况下性能有所提升。3)最后本文使用两个公开数据集将提出的两种模型和主流的面向隐式反馈的推荐算法进行了详细比较,验证了在准确率与归一化折损累计增益两种指标下模型的性能优势。并通过详细实验确定了两种模型的最佳负采样数的区间范围。