论文部分内容阅读
随着互联网的不断普及,电子商务的应用也越来越广泛,因而产生的数据也越来越多。不得不说,我们在享受着互联网给我们带来的便利的同时,也面临着数据量激增,数据结构多样化等问题。怎样充分利用这些数据,从这些海量的数据中发掘有用的信息,已经成为一项不可避免的挑战。所以,推荐系统的应用与发展逐渐成为学术研究者和互联网研究人员的关注点。协同过滤推荐算法出现的较早,并且广泛应用于淘宝、当当、亚马逊等推荐系统中。尽管如此,协同过滤推荐算法在个性化推荐系统中仍然存在冷启动问题和可扩展性等问题。对于协同过滤中存在的冷启动问题和可扩展性问题,本文进行了深入研究,具体的工作内容包括以下三个方面:1、针对传统的基于物品的协同过滤推荐算法的冷启动问题,本文提出利用电影属性计算相似性的算法(AW-CF)。对于没有用户评价的电影,传统法方法常采用随机、平均数或众数推荐。本文提出,计算任意两部电影的相似性时,针对电影的每种属性,分别设计不同的相似性计算方式,并结合用户评价信息相似性,综合的计算电影之间的相似性的方法。从而能够更加准确的计算电影之间的相似性,将系统中新上映的电影推荐给用户,有效缓解传统的基于物品的协同过滤推荐算法中存在的冷启动问题。2、利用BP(Back Propagation)神经网络,设计并实现预测模型的结构。传统的预测模型中,常将多个相似性进行线性拟合,适用性较差。本文充分利用BP神经网络自学习的特点,设计并实现用户对电影的评价信息计算出来的相似性和利用电影属性计算出来的相似性的融合。用总相似性进行预测,根据预测评分和真实评分之间的误差,对预测模型进行调整,保证模型具有一定的适应能力。3、针对传统的协同过滤推荐算法的可扩展性问题,本文中提出一种对样本采样的算法(samplingAW-CF)。现有的聚类算法不能保证每个簇达到较好的效果,而降维技术不仅造成信息丢失,当维度较高时,效果也难以保证。本文针对电影数据在属性维度上不会有很大的变化,而用户对电影的评价以及电影的数量和用户的数量是不断增加的特点,利用TF-IDF及PageRank算法的思想,为每部电影设计重要性和代表度的概念,对样本进行抽样,抽取出具有代表性的电影。利用这些具有代表性的电影进行模型的训练,从而加快模型的训练。在预测阶段,通过抽样,减少预测空间,从而更快的响应用户。通过将本文中提出的算法与其他解决冷启动问题、可扩展性问题的算法进行对比。实验结果表明,本文中提出的AW-CF算法具有更小的MAE和RMSE,sampling AW-CF算法则在保证推荐效果的前提下,用时更短。