基于Spark的混合推荐系统的研究与实现

来源 :北京交通大学 | 被引量 : 12次 | 上传用户:jeans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代背景下,推荐系统已经成为一个解决信息过载问题不可或缺的工具。一方面用户通过推荐系统在海量的数据信息中筛选有用信息,获得有力的决策支持。另一方面提供推荐服务的电商、多媒体服务商等希望通过推荐系统来对用户进行针对性的个性化营销以提高收益。近十年来推荐系统取得了突飞猛进的发展,但仍面临着诸多挑战和问题,例如海量数据的存储计算和扩展性问题,原生的数据稀疏性问题,以及缺乏推荐系统的时效性问题等等。为了解决上述问题,本文基于Spark平台研究并实现了一个针对电影领域的混合推荐系统。第一,研究了目前常用的矩阵因子分解方法,提出了一种混合了时间因子和邻域信息的混合矩阵分解推荐算法。将用户所在群体兴趣随时间迁移的因素考虑其中,并采用了动量梯度下降的方式求解损失函数,在参数求解速度提升的同时提高了算法的预测精确性;第二,针对协同过滤的相似度计算问题,提出了一种改进的皮尔逊系数相似度计算方法,考虑了物品的热度和个体评分偏置的影响。经实验证明,该计算方法有效的降低了算法的均方根误差;第三,针对推荐系统的时效性问题,本文采用了增量ALS矩阵分解算法。对于新获取的信息,局部的修改模型而避免对模型的重新训练,节省了巨大的计算花销。实验证明,增量ALS较目前流行的增量SGD具有更快的交互速度和更高的准确度,有效的提高了系统的反应速度;最后本文基于Spark平台设计并实现了一个电影推荐系统,包括了日志收集、数据处理和混合推荐引擎等主要模块,并融合了上述优化方法,有效的改善了目前推荐系统遇到的主要问题。
其他文献
目的运用数据包络分析(data envelopment analysis, DEA)对我国规模相同的10家三级儿童医院和10家三级综合医院在2011-2012年的运行效率和生产率变动情况,以及影响其运行效率
<正>缺血性脑血管病是一类致残率和死亡率都很高的疾病,引起缺血性卒中的原因有很多,比如:动脉粥样硬化、心房纤颤、大动脉炎、高凝状态等。但是大约25%~40%的缺血性脑血管病
本文主要从时间单元平面沉积微相角度识别单砂体,分析了新民油田开发初、中期地下复杂的砂体平面分布、宏观非均质性及剩余油分布规律。并利用剩余油研究成果对开发效果差、
文章以腾讯微博为研究对象,调研用户标签主题表达能力,并针对不同领域的差异进行分析。本研究可进一步丰富信息组织领域的研究内容,并为微博类应用平台的用户标签自动服务提
脑老化(brain aging)是一种伴随着年岁的增加,大脑的组织形态逐步出现衰退的现象,致使大脑的高级功能的缺失,出现认知功能的障碍。活性氧物质(ROS)是调节细胞的增殖、凋亡等过程
平阴地处鲁中偏西南,地理位置偏僻,方言保存较完整。平阴方言处于北方官话和中原官话的交界之处,属于山东方言中的西齐片区,历来研究较少。本文试从平阴方言声韵调、语音特点
基于成鞋异味检测研究的重要性,分析异味来源、介绍现有检测方法及存在问题,提出了主客观相结合的异味测试方法。
企业进行绩效考核有利于调动职员的工作积极性,本文根据考核指标对不同层次员工的不同要求引入层次分析法,通过评定,客观地赋予考核指标不同的权重,实例表明层次分析法的优越
地勘单位之间的竞争,本质上就是人才的竞争,若要在激烈的环境中占据有利地位,就一定要提升人员的素养,进而促进地勘单位的进展。文本基于地勘单位职工培训的作用,详细阐述了
<正>我国人口老龄化的快速发展,与工业化、城镇化相伴随,与家庭小型化、少子化相叠加,老龄社会治理的复杂性、艰巨性越来越大,人民群众对法治的要求越来越高。与此相应的是,