基于互联网用户特征的商品推荐系统研究——基于Hadoop和Mahout

来源 :东华大学 | 被引量 : 0次 | 上传用户:join20102010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据开始呈爆炸式的增长,互联网用户越来越被淹没在数据的海洋之中。因此,如何帮助用户从海量的信息中找到真正感兴趣的资源成为一个亟待解决的问题。商品推荐系统作为电子商务网站一种通用的商品信息过滤手段,通过收集用户的个性化信息,预测用户可能感兴趣的商品,从而进行针对具体用户的个性化商品推荐。但是,传统的商品推荐系统在具体运行中面临着冷启动、数据稀疏性和可扩展性等问题。  本文从商品推荐系统的研究背景、研究意义和研究现状入手,对推荐系统常见算法以及所面临的问题进行了较深入研究。在此基础上,提出了基于用户特征的推荐算法和改进的基于项目的协同过滤算法,从而在一定程度上缓解了推荐系统面临的主要挑战。最后,借助于Mahout、MapReduce、Hive和HBase等工具,本文在Hadoop平台上实现了这些算法,并构建了一个基于用户特征的商品推荐系统原型。总结起来,本文的主要工作体现在以下几个方面:  1)对用户冷启动问题的改进:对多维数据交叉利用方法进行扩展,并通过整合全网络用户行为的日志信息,从中挖掘用户的兴趣及偏好特征,提出了基于用户特征的推荐算法,从而在一定程度上缓解了用户冷启动问题。  2)对数据稀疏性问题的改进:将商品粗粒度化方法应用到传统的协同过滤算法中,提出了改进的基于项目的协同过滤算法。该算法对商品按照品类计算相似度,在此基础上将该品类下评分最高的一些商品推荐给用户,从而在一定程度上缓解了数据稀疏性问题。  3)对可扩展性问题的改进:应用MapReduce、Hive和Mahout工具,在Hadoop上实现了基于用户特征的推荐算法和改进的基于项目的协同过滤算法,完成了算法的并行化,从而在一定程度上提高了系统的可扩展性。本文将商品信息存储到HBase中,用户特征信息存储到Hive中,借助于Hive分析用户的特征,有效地解决了大数据的存储与分析问题。  4)借助于Hadoop、MapReduce、Hive、HBase和Mahout等工具,设计并实现了基于用户特征的商品推荐系统原型。
其他文献
随着信息时代的到来,计算机技术开始飞速发展,软件产品在人们生活中的应用日渐普及,软件已经成为日常生活和经济发展中不能缺少的部分。在软件产品给人类生活带来便捷的同时,
学位
智能制造业的快速发展,对节点间通信的实时性、可靠性以及通信带宽提出了更高的要求。作为智能制造业最基础的核心技术之一,工业现场通信技术始终处于高速发展中,近些年涌现出一
随着移动设备和无线局域网的普及,定位服务越来越成为人们生活中必不可少的功能。相比于目前已经很成熟的户外GPS地图定位,室内位置信息的获取,特别是在场地复杂的公共场所比
时间序列是一种广泛存在的数据,客观记录了所观测的系统在各个时刻点的具体值,所以可以通过研究时间序列数据来辨识和重构所观测系统的动力学行为。早期的研究方法是基于统计
随着我国证券市场的不断发展和完善,股票市场作为我国经济“晴雨表”的功能也越来越突出,无论是个人投资者还是国家都十分关注股票市场的走势。若能较为准确的预测股票市场的涨跌趋势,不仅可以为广大投资者提供投资决策的依据,也能够为国家制定相关经济政策提供参考。股票市场具有非线性、高噪声、数据量大等特征,相关的股票分析方法,如基本面分析法、技术面分析法、时间序列分析法等,各有特色,但难以适应日趋复杂的股市。研
随着互联网的迅猛发展以及电子商务的快速流行,海量信息充斥在人们的生活中。信息超载问题也越来越严重。为了解决该问题,推荐系统就此诞生。它通过分析用户的历史行为记录,得出
MQX是一款主要面向工业控制、汽车电子及消费电子等领域实时多任务应用的嵌入式实时操作系统。2009年,飞思卡尔公司半导体公司开始免费开放MQX3.0.1版源代码,同年,苏州大学飞思
随着Web技术的不断发展进步,J2EE已成为Web开发的应用技术的最流行的架构规范。这个平台已经拥有很好的技术支持和服务,它的多层架构受到大型Web开发者的青睐,是解决企业应用
随着人们出行需求的大幅增加和各类交通工具数量的迅速增长,对轨迹数据进行分析和挖掘开始受到广泛的关注和重视。得益于智能交通系统在各大城市的普及应用,大量的车辆轨迹数