基于Spark的协同过滤算法的研究与应用

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:gogouu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅猛发展和广泛应用,电子商务随之逐渐成熟,网购比例越来越大,然而商品种类日益繁多,从中选择自己真正需要的物品也随之变得愈发困难。电商平台推荐系统的产生在一定程度上解决了信息过载的问题,根据用户画像或其历史行为数据为用户提供个性化的商品推荐,可以有效地避免一些筛选工作。协同过滤推荐算法是电商推荐系统中应用最为广泛且比较成熟的推荐算法,在现实应用中收获了一定的效果,但仍呈现出一些缺陷,诸如数据稀疏性、隐式反馈问题、冷启动问题、准确性问题等。此外,面对用户量和商品量激增的现状,原始推荐算法逐渐暴露出扩展性、稳定性和实时性等问题。基于以上因素,通过研究关于协荐算法的成果及算法存在的常见问题,本文有针对性地对基于项目的协同过滤算法进行了改进,包括数据预处理阶段的隐式反馈问题解决方案,相似度计算阶段的基于用户历史行为和物品描述信息的综合相似度的改进,并结合当前主流的大数据处理技术实现了改进算法在分布式计算平台Spark上的并行化,最后将并行化改进算法应用于实际应用中,主要工作及研究成果如下:(1)针对电商系统中用户显示评分数据量较少的情况,利用系统中用户的操作行为数据,通过一定的方法将隐馈数据转换为标准的用-项分阵,解商系统中用户的隐式反馈问题。(2)引入综合相似度,由项目间的相似度和基于商品描述信息得到的相似度共同组成。利用商品的描述信息,对文本信息进行分词、加入停用词和自定义词,将其转换成TF-IDF向量,以此计算项目间的内容相似度。使用项目间内容相似度,按照一定方式对传统的项目间的相似度进行修正,通过这种方式来解决数据稀疏性、项目冷启动等问题,同时提高了推果的准和召率。(3)鉴于算法的扩展性、稳定性和实时性,将改进算法并行化于Spark平台,利用并行化算法设计并实现了一个电商平台推荐系统,最后采用人口统计方法优化了系统中用户的冷启动问题。实验结果表明,引入综合相似度后的改进算法在准确率和召回率上都有所提高,通过对比集群不同节点下算法的执行时间,验证了Spark对于算法执行性能的明显提升,能够有效地处理海量数据并快速得出推荐结果。
其他文献
为了研究不同有机质对持久性有机污染物(POPs)的吸附行为及生物可利用性的影响,从黑龙江省未被多环芳烃(PAHs)污染的农业表层土壤中提取了矿质结合态胡敏酸(MHA)、矿质结合态
大学师生关系一直是高等教育学、社会学、哲学研究中的一个经典的话题,它对大学师生、高等教育乃至整个社会都具有重大意义。然而,当下我国大学师生关系存在诸多问题并广受质
淋巴造血系统肿瘤的WHO新分类将套细胞淋巴瘤(mantle cell lymphoma,MCL)作为一种独立的疾病。目前病理诊断除依据典型的形态学特征之外,细胞周期蛋白D1(cyclinD1)的过表达常作为诊
时代的发展对高职会计专业大学生的职业能力提出了新的要求,从事会计工作者不仅需要具备专业理论知识,还必须具备扎实的职业能力。高职会计教学必须要以市场对人才的需求为导
由于高分子材料科学技术的迅猛发展,燃气管道领域发生了“以塑代钢”的革命性变革。聚乙烯(PE)是一种半结晶的热塑性高分分子材料,其化学性质稳定、易加工成型、力学性能优异
红色旅游作为我国旅游业的特色产业之一,愈发受到游客的青睐,而游客在线评论更多的是游客对景区的实地体验感受进行的阐述,不仅体现了旅客对景区的主观印象及满意度,同时也对
缺血性脑卒中的发生是由脑部血液供应不足造成的,目前主要的治疗手段是恢复血液再灌注,但是在这一过程中会进一步加重脑组织损伤,这种病理生理改变称为脑缺血/再灌注(ischemi
<正>据美国埃克斯科公司(EXCO)的测算,2025年北美汽车工业的用铝量可比2012年的增加40%。说到北美汽车工业实际上就是指美国汽车工业,因为美国汽车产销量占北美市场的95%以上
货架期风味品质稳定性差是制约高品质纯茶饮料发展的主要技术瓶颈。为了促进茶饮料加工技术的发展,提高纯茶饮料风味品质的稳定性,分析不同茶类纯茶饮料灭菌(135℃,20 s)及高温
日前,“港独”组织“香港众志”头目黄之锋、香港立法会议员朱凯迪、学联前副秘书长岑敖晖等3名“港独”分子公开造访台湾。在台期间,“港独”分子接连与民进党、“时代力量