论文部分内容阅读
为了解决因特网快速发展和普及所带来的信息过载问题,推荐系统应运而生。在推荐算法中,较早提出的是基于内容推荐方法,目前为止较有影响力的是协同过滤算法。其中,基于内容推荐方法虽保证推荐的准确度,无冷启动问题,但难以逃避推荐结果单一的弊端。所以针对这一弊端,本文提出了一种融合近邻用户兴趣度的推荐方法。该方法通过相似用户的既有兴趣值扩充目标用户的兴趣度向量,再将用户混合兴趣度向量与物品特征属性向量做匹配度计算。经实验证明该方法在保证准确度下降不明显的前提下,能有效提高推荐的新颖度。传统协同过滤算法是基于用户喜好不变这个假设的,但是在实际应用中,用户的喜好会随时间变化,所以推荐的结果具有滞后性;随着用户和项目的数据量迅速飙升,评分矩阵越发稀疏,导致算法的准确度大幅下降,并伴有严重的冷启动问题。所以本文针对该问题,提出了一种基于近邻协同过滤混合的推荐方法。该方法应用用户实时听歌频率信息,根据基于项目近邻算法,扩充原有评分矩阵,再根据用户近邻算法进行最终评分的预测。经实验证明,该方法在扩充评分矩阵后,矩阵的稀疏度有所降低,推荐准确度有所提升,并有效解决物品冷启动问题。与此同时,单机推荐算法的计算能力无法承受巨大数据量带来的冲击,往往伴随着严重的计算瓶颈。因此,本文搭建了Hadoop生态环境,使用MapReduce、HDFS等分布式计算和存储工具,针对算法实现过程中的大规模稀疏矩阵进行分布式计算;最终考虑到用户对热歌和新歌的需求,加入了热歌库以及新歌库的推荐策略。目前推荐领域研究的主要目的是提高推荐的准确率,但高准确率主要反映的是推荐系统预测评分的能力较强,并不能反映用户真实的需求。所以本文使用了覆盖率、新颖度等指标,共同评估推荐的综合能力。本文以网易云音乐平台的真实数据作为实验数据来源,通过七组实验证明,本文提出的推荐方法计算效率有明显提升;推荐算法的新颖度、覆盖率有所提升;有效的解决了物品冷启动问题。