论文部分内容阅读
随着计算机技术的发展,互联网已经融入到人们生活的方方面面,用户可以通过互联网轻而易举的获取大量信息,然而在享受这种便利的同时,用户也开始遇到信息“过载”的问题。面对海量的信息,用户往往难以取舍,并从中提取出真正需要的内容。搜索引擎技术,通过对关键字的检索,在一定程度上缓解了这一问题。然而,基于搜索引擎的信息检索技术,会给用户呈现大量无关或者不感兴趣的内容。如何在信息过载的情况下给用户提供更个性化更贴近用户需求的信息,成为了互联网发展中的热点问题。而推荐系统,被认为是当前解决以上问题,给用户提供更加个性化信息最有效的工具之一。推荐问题从根本上说就是从用户的角度出发,代替用户去评估其从未看过的产品,使用户不只是被动的网页浏览者,而成为主动参与者。准确、高效的推荐系统可以挖掘用户的偏好和需求,从而成为发现用户潜在的消费倾向,为其提供个性化服务。协同过滤算法是一种基于统计的推荐系统算法,由于该算法模型简单、训练复杂度低、推荐性能优秀等特点,广泛应用于各类推荐系统之中。它通过收集用户的历史行为信息,通过相似性的计算,来搜索与当前用户具有相同或者相近兴趣爱好的其他用户,形成近邻。然后,根据近邻用户的历史行为,例如用户对物品的历史评价信息,来预测当前用户对物品的评价或者可能的行为。然而,传统的协同过滤算法,在较好的满足了推荐系统的需求的同时,也面临着一些系列的挑战,例如数据的稀疏性、相似性度量的准确性、实时性和可扩展性等。如何应对这些挑战,是推荐系统需要解决的重要问题。本文的主要工作如下:1.本文针对传统相似性度量方法对于内容信息利用不充分,度量不准确的问题,提出了一种基于配对的相似性度量方法。该方法利用物品间的属性信息,在物品属性的纵向和和横向两个不同层面分别求出物品的属性内相似度和属性间相似度。属性内相似度和属性间相似度再进一步结合成配对相似度,利用配对相似度结合基于内存或基于模型的协同过滤算法构建了混合推荐算法。实验结果表明,该通过相似度度量方法构建的混合推荐算法能有效地提高推荐的精确度。2.本文针对海量数据环境以及配对相似度本身的计算复杂度造成的可扩展性问题,选取了MapReduce分布式计算模型和Hadoop分布式计算系统作为应对策略,利用分布式计算的办法来加速配对相似度的计算速率。实验结果表明,该并行化方法提高了在海量数据下基于配对相似度的混合推荐算法的可扩展性。3.本文介绍了一个基于云计算平台的海量数据工具箱的设计和实现,这里本文将会介绍该工具箱的四个功能模块,它们是集群管理模块、数据集管理模块、算法管理模块与任务管理模块,然后以推荐算法为例介绍了用户使用该工具箱的详细流程。