论文部分内容阅读
以数据为驱动、以机器学习为核心的推荐技术可有效提高信息服务的精准性、提升用户体验,一直是近几年信息处理技术的研究热点。论文以媒体推荐中的典型应用音乐推荐为研究对象,将当前机器学习中常用的分布式词向量表示与LSTM神经网络模型应用到推荐算法设计中,以有效提高推荐效果和效率。论文的主要研究内容包括两方面,一是基于Word2Vec的音乐会话记录分布式表示词向量学习,二是结合长期偏好的LSTM音乐推荐算法建模。论文基于很多推荐场景下用户会话行为之间极强的关联性,提出基于会话记录的音乐推荐设计,利用目前最常用的文本词向量神经网络Word2Vec框架,生成会话记录的分布式词向量表示,以有效降低音乐词向量表示维度,同时获得相似场景下音乐之间的相关性,实现音乐特征的有效提取。论文基于条件概率对所构建的词向量学习模型进行了可行性理论推导,并使用Last.fm真实数据集对所构建的模型进行了实验训练。实验的主要设计为模型窗口值设定、词向量维度选择及实验结果的可视化。实验结果直观显示了相似‘语义’音乐在二维空间上紧密相连,由此说明了所获取到的音乐词向量的合理性和有效性。论文基于音乐爱好同时存在的短期连贯性及长期稳定性,提出了结合长期偏好的LSTM音乐推荐算法建模,以有效解决RNN神经网络时间跨度加大时远程信息学习能力丧失的问题。论文这部分的主要研究特色包括:第一,以历史向量的平均值表征用户长期偏好作为模型初始输入,一方面考虑了音乐爱好的长期稳定性,同时也缓解了会话冷启动问题;第二,统一了会话序列长度,以利于并行运算,与此同时采用动态更新思想解决补零过后所带来的误差增大问题;第三,在模型嵌入层引入Dropout技术以类似集成学习方式进一步提高模型泛化能力;第四,针对个性化推荐问题通过二分类形式定义损失函数,即推荐与否。论文在验证集上通过选取合适的隐层节点数、学习率、批量值等超参,在通用指标体系下与session-Word2Vec、W-LSTM等多种推荐算法进行对比,实验结果表明论文提出的模型具备较好的动态意图提取能力,同时长期偏好的引入也一定程度上改善了会话冷启动问题。