论文部分内容阅读
随着云计算、大数据等技术的不断进步,“互联网+”将进一步融入到人们的日常生活,深刻改变人们的生活方式,人们越来越依赖于互联网。在大数据时代,人们面临的信息过载问题日益严重,协同过滤推荐技术是解决信息过载问题的有力手段,而且还可以满足用户的个性化信息需求。协同过滤推荐技术通过对所有的用户历史行为数据进行分析,获得用户的潜在或未来的喜好,然后根据用户的喜好,从海量信息中过滤出与用户偏好相匹配的内容,从而主动为用户推荐满足用户需要或感兴趣的内容。基于内存的协同过滤无需要分析信息资源的内容,且可以发现用户潜在的兴趣,而且可解释性强、易实现,因此得到广泛的研究和应用。但在实际应用中,往往信息是无穷无尽的,但用户通常只会对少量项目进行关注或评分,最终导致数据稀疏性也更加严重,严重阻碍了协同过滤技术的发展和应用。本文在第三章首先提出一种基于用户上下文信息的相似性度量方法,该方法考虑了用户上下文信息对用户相似性的影响,能更准确的反映用户间的相关性,从而使最近邻用户的选取更加准确,提高评分预测的准确度,降低误差。其次提出了一种基于评分倾向度的相似性度量方法。该算法针对评分数据的稀疏性问题,引入评分倾向度的概念,综合考虑了用户评分,用户间共同关注的类别和喜好评价尺度的差异对用户相似性的影响,使用户的相似度计算更加符合实际,有效缓解了数据稀疏性带来的困扰。然后针对数据稀疏性导致评分预测不准确的问题,本文提出了一种动态评分预测方法,新的评分预测方法综合考虑了用户最近邻和项目最近邻在评分预测中的作用,实现了对缺失评分项的动态填充,使评分预测更精确。最后,结合本文提出的三种改进方法,本文提出了一种融合用户上下文信息和评分倾向度的协同过滤推荐算法CPCF。本文使用美国明尼苏达大学Grouplens研究组提供的MovieLens-1M数据集,采用5折交叉验证的方法,将数据集按照80%和20%的比例随机分为训练数据集和测试数据集;并使用平均绝对误差和推荐准确率两个指标来评价推荐算法的效果;共设计了四组实验,分别从基于用户上下文信息的相似度、基于用户评分倾向度的相似度、动态评分预测以及一种融合用户上下文信息和评分倾向度的协同过滤推荐系统的有效性四个方面来验证本文提出的改进算法的性能,通过实验证明本文所提算法可以有效缓解数据稀疏性问题,提高评分预测准确度和推荐准确率,改善推荐质量。