论文部分内容阅读
推荐系统帮助人们在海量数据中获取感兴趣的信息,但传统推荐系统所采用的推荐算法在使用上都存在一定的缺陷,因此,在实际推荐系统中,大多是采用多种推荐算法结合的混合推荐技术,在推荐效果上要比单一推荐算法表现好。但随着互联网发展,数据规模急剧增长,单机推荐系统的性能越来越差,推荐系统迫切需要寻找新的解决方案来使其在数据量爆发式增长的环境下仍能维持良好的表现。同时,信息的发达使得人们有了更多的选择,推荐系统需要在不同应用场景下选择最适合的混合推荐技术,以提高推荐系统的推荐质量。针对上述问题,本文设计并实现了基于Spark的混合模式电影推荐系统,推荐引擎采用的是基于内容和基于联合聚类的交替最小二乘法(Alternating Least Squares,ALS)两个模式相结合的混合推荐技术,并将其在Spark平台上实现,使推荐系统在处理海量数据时仍能拥有良好的用户体验。本文的主要工作有:(1)对推荐系统、Spark平台、基于协同过滤算法、基于内容推荐算法、推荐性能评价指标等相关技术进行分析,提出本文推荐系统的设计思路。(2)针对传统推荐算法存在的冷启动、数据稀疏等问题,提出了一种基于内容推荐算法和基于联合聚类的ALS模型算法相结合的混合模式推荐算法。该混合推荐算法所支持的推荐引擎在面对系统新用户或新项目时采用的是基于内容推荐,能缓解协同过滤算法存在的系统冷启动问题。对于有一定数据量的用户,本系统采用基于联合聚类的ALS模型算法,该算法对解决数据稀疏问题能起到一定作用。该混合算法同时利用显示反馈和隐式反馈信息,可以更好的模拟用户兴趣,向用户进行推荐。(3)通过在MovieLens数据集上进行仿真模拟实验,利用对比试验对本文所提出的混合模式推荐算法的推荐效果进行测试,验证该混合模式推荐算法的有效性和可用性。实验结果表明,该混合模式推荐算法在推荐性能和推荐效果上均表现的较为理想。(4)根据本文所提出的混合模式推荐算法,提出基于Spark平台电影推荐系统的设计与实现方案,对系统的功能、流程和框架进行了详细设计与说明。该系统是基于Web服务的网页系统,用户在网站中浏览电影信息,系统根据用户分类对其进行推荐,根据用户评分更新数据,从而更新推荐列表,同时也对系统的主要界面进行展示。