论文部分内容阅读
面对日益严重的“信息过载”问题,很多研究提出使用信息检索技术来解决,但是该技术仍有对搜索关键词依赖和无法提供个性化服务等问题。为了解决上述问题,推荐系统被提出。其中协同过滤算法是推荐系统中常用的一种推荐算法,但是仍面临着数据稀疏性、冷启动、可扩展性和评分数据本身的局限性等挑战。因此,本文以上述存在的问题为出发点,结合不同的分析方法,融合多源信息,在基于内存和基于矩阵分解的两种传统CF算法的基础上进行了研究、改进和实践应用。工作内容如下:研究了基于聚类和二分网络的协同过滤模型(Collaborative Filtering model based on Clustering and Bipartite Network,CBNRank)在缓解协同过滤算法中数据稀疏性、可扩展性和评分数据本身的局限性问题的效果。首先,使用聚类和协同过滤组合算法处理评分数据,对用户聚类,在每个聚类簇中利用基于用户协同过滤算法填充该评分矩阵,以降低算法的运算时间和数据的稀疏度。然后,将评分数据处理为成对偏好数据集,构建相应的二分网络结构,以缓解评分数据本身的局限性问题。最后,利用基于图的排名算法计算项目之间的相似度,实现Top N推荐。实验结果表明CBNRank模型对于缓解上述问题起到了积极的作用,提升了预测精准度。研究了基于多源信息和深度矩阵分解的协同过滤模型(Collaborative Filtering model based on Multi-source Information and Deep Matrix Factorization,MIDMFRank)在缓解协同过滤算法中数据稀疏性和冷启动问题的效果。首先,分别将用户和项目信息通过不同网络层的处理,得到用户和项目特征。然后,将评分数据作为深度矩阵分解模型的输入,分别学习到用户和项目隐特征,将用户和项目特征分别融合到用户和项目隐特征中,通过融合后的隐特征继续训练模型,以缓解冷启动问题。最后,根据归一化交叉熵损失函数继续学习,得到最终的评分预测矩阵,实现Top N推荐。实验结果表明MIDMFRank模型对于缓解上述问题有促进作用,提高了评分预测精度。设计了基于MIDMFRank模型的电影推荐系统。该系统以需求为出发点,设计了整体架构、功能模块和数据库,最终实现了推荐服务,验证了MIDMFRank模型在实践应用中的可行性。