【摘 要】
:
互联网的爆炸性发展在带给人们便利的同时也带来了严重的数据过载问题,为了解决这个问题,人们先后开发出了分类目录和搜索引擎两种解决方案,但都存在缺陷。随着时代发展,推荐系统开始成为一种常见的解决方案而登上历史舞台。然而当前的推荐系统往往是面向某个业务实现的针对性推荐软件,当业务需求或者环境发生改变时,推荐系统很容易出现各种问题,灵活性很差。此外当前市面上很多推荐系统都存在一些显而易见的过期推荐行为,即
论文部分内容阅读
互联网的爆炸性发展在带给人们便利的同时也带来了严重的数据过载问题,为了解决这个问题,人们先后开发出了分类目录和搜索引擎两种解决方案,但都存在缺陷。随着时代发展,推荐系统开始成为一种常见的解决方案而登上历史舞台。然而当前的推荐系统往往是面向某个业务实现的针对性推荐软件,当业务需求或者环境发生改变时,推荐系统很容易出现各种问题,灵活性很差。此外当前市面上很多推荐系统都存在一些显而易见的过期推荐行为,即用户经常发现刚买过且当前不再需要的物品也会被系统反复地推荐。针对上述问题,本文提出一个可控算法且可跨平台运行的通用推荐系统框架,该框架能够运行多个经过优化的推荐算法,并对各个算法的输出结果进行整合去重,从而实现更加精准的个性化推荐。本文的主要研究工作如下:(1)为了实现框架能应对不同推荐业务的效果,本文通过GroupLines实验室获取了和电影推荐相关的MovieLens数据集,又通过爬虫拿到了Wargaming公司的用户数据集,并对两个数据集进行整理与转换,使之成为算法可以处理的格式,并且采取自适应噪音消除策略计算数据集的清洗阀值。(2)使用协同过滤算法来获取目标用户的推荐列表,并使用热门推荐和内容推荐对协同过滤算法结果进行补充;此外对协同过滤算法的运行效率,硬件资源使用效率,准确性以及多样性进行了优化。(3)采取综合推荐方案,将协同过滤算法的输出结果进行整合,获得两个整合推荐列表,之后从现有的四个推荐结果中选择效果最佳的一个。(4)通过对现有去重方案的研究,提出一种自动计算重复推荐窗口期的去重方案,用于去除上一阶段获得的推荐结果中不合时宜的推荐项目。本文通过使用Python语言编写框架,实现了数据爬取和跨平台支持,使用MapReduce进行分布式计算来支持大数据下的高效运算,而数据存取方面使用Hbase,最终实现了该自动推荐框架,且该框架可根据实际需要挂接其他推荐算法和相应的数据处理模块。
其他文献
纺织品生产工艺流程长,传统工艺中纺纱、织造、染色、印花、整理等加工各有规范化的一系列工序,各工序独立又不免有功能重复性。其中,经纱上浆浆料和纺织品印花预处理糊料具有一定共性。基于此,本文开发一种多功能环保上浆剂及免退移浆工艺,既满足经纱上浆又满足印花预处理需要,使其可缩短工艺流程,节省原料,符合纺织品清洁生产加工趋势。本文将聚丙烯酸酯浆料和海藻酸钠以一定比例复配,探究复合多功能上浆剂对涤纶纱线的上
<正>随着人民生活水平的提高和健康意识的日益加强,无污染、无残留和无公害的安全绿色食品已经得到广泛关注。在集约化养殖过程中,由于饲养环境、疾病威胁和营养限制等因素,
目前,根据我国即将加入WTO,企业将面临日趋激烈的国际竞争的态势,中国银行以其良好的国际信誉,领先的业务技术,又相继开发出了综合保理和商业发票贴现等一系列国内保理产品,
入侵植物是归化植物的子集,归化是植物入侵的基本前提,完整的归化植物清单有助于预测和预防植物入侵。该文基于实地调查和资料收集,对中国归化植物种类及分布进行统计,结果表
随着经济的增长和社会的进步,人们的生产水平和生活质量都得到了显著的提高。人们在加强物质文明建设的时候,也越来越意识到了精神文明的重要性。在实际的生活中,纺织品是人
遗产信托制度起源于中世纪的英国,其作为一种遗产处理方式已经被各个国家广泛运用。然而,我国却迟迟没有引入遗产信托制度。随着我国社会经济的高速发展,高净值人群的数量显
新中国在进入改革开放以来,两岸政治经济合作愈发紧密,合作的深度和广度也史无前例,这对海峡两岸既是机遇又是挑战。在经济全球化的今天,各国对经济的发展要求更加全面,更是覆盖了
最近,在美国土木工程协会的主持下,经过全世界各国工程协会的详细调查,七项伟大的工程被列为当代世界七大奇观。其中之一为伊泰普水电站大坝。此坝位于巴西和巴拉圭边界上,横跨巴
<正>一个城市活力来自人口集聚。由于人口集聚的市场支撑,越是明星城市,房价也就越高。如何不让高房价阻碍城市人口集聚?一个重要的办法就是培育和发展住房租赁市场。杭州培
进入21世纪,快速城市化背景下地方政府土地财政问题的负面效应逐渐显现,并渐渐成为社会各界热议、学界研究的热点课题。人们对于土地财政的做法褒贬不一,一方面,在当前经济变