论文部分内容阅读
随着大数据时代的到来,数据开始呈爆炸式的增长,互联网用户越来越被淹没在数据的海洋之中。因此,如何帮助用户从海量的信息中找到真正感兴趣的资源成为一个亟待解决的问题。商品推荐系统作为电子商务网站一种通用的商品信息过滤手段,通过收集用户的个性化信息,预测用户可能感兴趣的商品,从而进行针对具体用户的个性化商品推荐。但是,传统的商品推荐系统在具体运行中面临着冷启动、数据稀疏性和可扩展性等问题。 本文从商品推荐系统的研究背景、研究意义和研究现状入手,对推荐系统常见算法以及所面临的问题进行了较深入研究。在此基础上,提出了基于用户特征的推荐算法和改进的基于项目的协同过滤算法,从而在一定程度上缓解了推荐系统面临的主要挑战。最后,借助于Mahout、MapReduce、Hive和HBase等工具,本文在Hadoop平台上实现了这些算法,并构建了一个基于用户特征的商品推荐系统原型。总结起来,本文的主要工作体现在以下几个方面: 1)对用户冷启动问题的改进:对多维数据交叉利用方法进行扩展,并通过整合全网络用户行为的日志信息,从中挖掘用户的兴趣及偏好特征,提出了基于用户特征的推荐算法,从而在一定程度上缓解了用户冷启动问题。 2)对数据稀疏性问题的改进:将商品粗粒度化方法应用到传统的协同过滤算法中,提出了改进的基于项目的协同过滤算法。该算法对商品按照品类计算相似度,在此基础上将该品类下评分最高的一些商品推荐给用户,从而在一定程度上缓解了数据稀疏性问题。 3)对可扩展性问题的改进:应用MapReduce、Hive和Mahout工具,在Hadoop上实现了基于用户特征的推荐算法和改进的基于项目的协同过滤算法,完成了算法的并行化,从而在一定程度上提高了系统的可扩展性。本文将商品信息存储到HBase中,用户特征信息存储到Hive中,借助于Hive分析用户的特征,有效地解决了大数据的存储与分析问题。 4)借助于Hadoop、MapReduce、Hive、HBase和Mahout等工具,设计并实现了基于用户特征的商品推荐系统原型。