【摘 要】
:
随着大数据时代的到来,数据量与日俱增,推荐系统也迎来了发展和挑战。比如,推荐系统暴露出重合点数比例高、冷启动、数据稀疏性等问题。本文根据协同过滤推荐算法的特点,研究协同过滤算法中的各种推荐技术。针对上述问题提出了不同的解决方案,即相似度计算公式的优化。首先,为解决重合点数比例过高的问题,对协同过滤推荐算法的相似度计算公式提出两点优化。经过优化得到两个相似度计算公式:Euclidean-CPARW和
论文部分内容阅读
随着大数据时代的到来,数据量与日俱增,推荐系统也迎来了发展和挑战。比如,推荐系统暴露出重合点数比例高、冷启动、数据稀疏性等问题。本文根据协同过滤推荐算法的特点,研究协同过滤算法中的各种推荐技术。针对上述问题提出了不同的解决方案,即相似度计算公式的优化。首先,为解决重合点数比例过高的问题,对协同过滤推荐算法的相似度计算公式提出两点优化。经过优化得到两个相似度计算公式:Euclidean-CPARW和Concurrence-RW。在MovieLens100K数据集上进行测试,使用均方根误差作为评价指标,公式Euclidean-CPARW的推荐精度比其他四种相似度公式的计算结果提高1%左右;公式Concurrence-RW使用准确率作为评价标准,推荐结果的准确率比其他四种相似度公式提高3%左右。其次,为缓和冷启动问题和数据稀疏性问题,提出一种优化的混合协同过滤算法。该算法结合了电影标签信息,基于优化的混合相似度公式BAJ-DCMS,通过评分表中共同评分的数量,自适应的选取一种利于当前评分数的相似度公式。公式BAJ-DCMS在MovieLens数据集上证明了算法的效果,使用均方根误差作为评价指标,计算出的推荐精度比其他两种相似度公式提高2%左右。最终,实现一个基于Spark大数据处理平台的个性化电影推荐系统。包括Spark大数据处理和Scrapy网络爬虫,推荐引擎采用前文叙述的优化的混合相似度公式BAJ-DCMS。系统框架使用SSM框架,数据存储使用数据库MySQL和分布式存储系统HDFS,通过Web浏览器与用户进行人机交互,通过Web可以看到为用户推荐的个性化电影列表以及每一部电影海报、主页等信息。
其他文献
早在上世纪九十年代,数学课本分《代数》和《几何》,这无疑是将数和形分开了,尤其像三角函数这样比较抽象的章节,理解和学习起来就比较麻烦了。但随着课改的推进,数形结合的
马克思主义理论与其方法论具有内在的联系,马克思主义理论探究自然、社会和人类思维发展的本质和规律,也是科学分析问题、解决问题的方法论,对人类认识世界、改造世界、推动
张謇的民生观继承了“民贵君轻”的优秀民生观的内涵,又吸收了西方有关民生观的部分内容。张謇“救国”理论,即民生理论,宗旨是顺应潮流,与世界接轨,将中国建成一个国强民富
目的:评价智能化体外充气复位联合经皮椎弓根螺钉固定治疗胸腰段爆裂型骨折的临床效果。方法 :回顾性分析2013年1月至2015年12月收治的22例单节段胸腰段爆裂型骨折患者,其中
民生主义是孙中山毕生的追求,民生关怀也倾注了张謇毕生的精力。尽管他们二人的民生思想有各自的发展轨迹,实现民生思想的逻辑起点不同,实践民生理想的路径各异,民生思想的内核也
目的探讨急性有机磷农药中毒(AOPP)院前催吐洗胃的可行性和效果分析。方法回顾性分析2010年1月~2016年1月32例院前接受催吐洗胃患者的阿托品、氯解磷定用量以及中间综合征(in
随着信息技术以及计算机通信技术的发展,信息传输设备被广泛应用于生产及科研领域。面对不断发展的信息采集系统,传统的信息传输设备已经无法满足人们的需求。针对传统信息传
介绍了灵泉村古建筑的结构构造及其建筑构造特点,分析了其中蕴含的朴素的力学及“以柔克刚,耗能减震”的抗震思想,为进一步研究灵泉村古民居提供了有用的资料。
杨甲三教授是我国当代著名的针灸学家,少年习医,17岁独立悬壶,一生致力于发展针灸学术,师古不泥,勇于创新,成功地将现代医学知识与传统针灸相结合,在针灸取穴方法、针刺技术
<正> 洪某,女,23岁,未婚,身高160cm,体重115 kg,于2005年4月20日就诊,要求针灸减肥。症见:体肥健壮,胃口佳,喜零食冷饮,小便短赤,大便秘结,月经规律,舌红、苔薄略黄,脉滑。有