基于协同过滤的电影推荐算法研究与实现

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:luohuanyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断普及,电子商务的应用也越来越广泛,因而产生的数据也越来越多。不得不说,我们在享受着互联网给我们带来的便利的同时,也面临着数据量激增,数据结构多样化等问题。怎样充分利用这些数据,从这些海量的数据中发掘有用的信息,已经成为一项不可避免的挑战。所以,推荐系统的应用与发展逐渐成为学术研究者和互联网研究人员的关注点。协同过滤推荐算法出现的较早,并且广泛应用于淘宝、当当、亚马逊等推荐系统中。尽管如此,协同过滤推荐算法在个性化推荐系统中仍然存在冷启动问题和可扩展性等问题。对于协同过滤中存在的冷启动问题和可扩展性问题,本文进行了深入研究,具体的工作内容包括以下三个方面:1、针对传统的基于物品的协同过滤推荐算法的冷启动问题,本文提出利用电影属性计算相似性的算法(AW-CF)。对于没有用户评价的电影,传统法方法常采用随机、平均数或众数推荐。本文提出,计算任意两部电影的相似性时,针对电影的每种属性,分别设计不同的相似性计算方式,并结合用户评价信息相似性,综合的计算电影之间的相似性的方法。从而能够更加准确的计算电影之间的相似性,将系统中新上映的电影推荐给用户,有效缓解传统的基于物品的协同过滤推荐算法中存在的冷启动问题。2、利用BP(Back Propagation)神经网络,设计并实现预测模型的结构。传统的预测模型中,常将多个相似性进行线性拟合,适用性较差。本文充分利用BP神经网络自学习的特点,设计并实现用户对电影的评价信息计算出来的相似性和利用电影属性计算出来的相似性的融合。用总相似性进行预测,根据预测评分和真实评分之间的误差,对预测模型进行调整,保证模型具有一定的适应能力。3、针对传统的协同过滤推荐算法的可扩展性问题,本文中提出一种对样本采样的算法(samplingAW-CF)。现有的聚类算法不能保证每个簇达到较好的效果,而降维技术不仅造成信息丢失,当维度较高时,效果也难以保证。本文针对电影数据在属性维度上不会有很大的变化,而用户对电影的评价以及电影的数量和用户的数量是不断增加的特点,利用TF-IDF及PageRank算法的思想,为每部电影设计重要性和代表度的概念,对样本进行抽样,抽取出具有代表性的电影。利用这些具有代表性的电影进行模型的训练,从而加快模型的训练。在预测阶段,通过抽样,减少预测空间,从而更快的响应用户。通过将本文中提出的算法与其他解决冷启动问题、可扩展性问题的算法进行对比。实验结果表明,本文中提出的AW-CF算法具有更小的MAE和RMSE,sampling AW-CF算法则在保证推荐效果的前提下,用时更短。
其他文献
目的探究并分析地塞米松联合重组杀菌性/通透性增加蛋白(bactericidal/permeability-enhancing protein,BPI)对肺炎支原体感染小鼠肺功能、肺泡Ⅱ型上皮细胞(alveolar epithe
城市雨水收集是解决城市水资源短缺、减少城市洪灾的有效途径.也是改善城市生态环境的重要组成部分城市公共建筑屋面雨水水质良好.利于收集利用。本文列举了雨水收集利用常见的
目的分析妊娠期亚临床甲状腺功能减退孕妇血清促甲状腺素(TSH)、游离甲状腺素(FT4)、甲状腺过氧化物酶抗体(TPO-Ab)与母胎并发症发生的关系。方法将122例妊娠期亚临床甲状腺
本工程位于广州大学艺术楼东侧,北临中环路,南望珠江海心岗水道,东临校园东区室外体育活动场地,西临“艺术表演广场”。集歌舞剧场、学生及教师活动、文艺教学与培训等功能为一体
目的探讨慢性阻塞性肺疾病(COPD)患者血清胱抑素C(CysC)、氨基末端脑钠肽前体(NT-proBNP)、尿酸(UA)、C反应蛋白(CRP)水平与病情严重程度及心脏受累的相关性。方法检测112例C
临床护理实践中,护患间的沟通是产生护患关系的基础,护患沟通贯穿护理活动的全过程。本文通过探讨护患沟通过程中存在的障碍,着眼于护患沟通,运用沟通技巧,以人为本,注重情感交流,护
目的探讨血清纤维蛋白原水平及白蛋白/球蛋白比值对直肠癌患者生存预后的影响。方法选取我科2010年1月至2013年1月收治的直肠癌患者120例,检测术前患者的血清FIB、AGR水平,根
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的探讨荧光定量聚合酶链反应(FQ-PCR)检测慢性乙肝患者血清乙型肝炎病毒(HBV)脱氧核糖核苷酸(DNA)的临床意义。方法回顾性分析248例慢性乙肝患者的资料,均采用FQ-PCR技术检