论文部分内容阅读
互联网+倡议为各个领域的发展打开了一扇窗,提供了全新的解决方案。信息化的发展提高了生产力,降低了成本,从而使人们的生活更加的便捷。但是信息化的发展结果是我们走进了大数据时代,如今人类几年产生的数据量已经超过过去一个世纪的数据量。面对日益增长的海量数据,数据生产者怎样把自己生产的数据推送到目标人群面前,数据消费者怎样快速获取自己感兴趣的数据,这就是当今世界我们面对的“信息过载”的问题。推荐系统可以有效的解决这个问题,但是传统的推荐系统在如今海量的数据量下容易遭遇瓶颈、力不从心,从而导致推荐的结果不理想,因此基于大数据平台推荐系统的研究具有实用价值与意义。 本文研究了当今学术界主流推荐算法以及大数据框架Hadoop。利用Hadoop分布式文件管理系统HDFS实现系统文件的分布式管理,利用Hadoop并行计算组件MapReduce实现分布式计算,利用Mahout组件中基于项目的协同过滤算法,设计并实现了一种基于大数据平台Hadoop的图书商城推荐系统,具体内容如下: 首先,使用Java Web技术构建了一个浏览器/服务器模式的图书商城系统。系统前端使用jQuery和Bootstrap。系统后端采用分模块解耦合开发,表现层框架使用SpringMVC,业务逻辑层框架使用Spring,数据持久层框架使用Mybatis,通过Spring依赖注入对类进行管理。数据库使用Oracle数据库,通过Maven项目管理工具进行项目管理,使用Eclipse开发工具进行项目开发,Tomcat服务器进行项目部署。 然后,构建Hadoop集群,通过数据采集模块Flume采集图书商城用户行为数据,包括用户浏览、搜索以及购买行为,通过大数据框架Hadoop解决图书商城系统海量数据存储处理问题,利用Hive组件存储通过MapReduce清洗后的数据以及通过数据迁移工具Sqoop把结果数据从Hive迁移到关系型数据库中。最终利用Hadoop框架中的Mahout组件实现基于项目的协同过滤推荐从而使图书商城系统增加个性化推荐服务功能。 最后,进行了系统功能测试以及性能测试。实验结果表明该系统具备了较完善的功能,能为用户提供良好的购物体验以及个性化的推荐服务,实现了预期的结果。