论文部分内容阅读
在互联网技术迅速发展的今天,我们能够从网络获取的信息量越来越庞大,与此同时我们同样必须面对信息过载这个难题,用户难以从海量的数据中迅速的发现对自己有价值的内容。推荐算法的应用是一种很好的解决方法,它的使用能够智能和主动的从大量数据中筛选出符合用户使用习惯的数据,为用户推荐满足其需要的产品。电气设备在很多行业的建设与生产中占有重要地位,企业在设计电气设备面对大量的器件时同样有着难以抉择的问题,项目数量和产品数量日益庞大,如何从中挑选符合项目要求的器件就成了一个亟待解决的问题。传统的器件管理数据库受到单机的性能限制和数据库的存储瓶颈,已经不能满足现在数据量的计算需求。本文通过对协同过滤推荐算法中的关键技术进行深入研究,设计了一种改进的相似度计算方法,并以此为基础设计了改进的协同过滤推荐算法,实现了算法在平均绝对误差等指标上的一定提升。然后结合基于Hadoop的分布式计算系统的高性能计算能力,以及MapReduce编程框架,设计了一个根据评分信息为用户推荐电气设备器件的原型系统,用以解决设计电气设备时,器件的推荐问题。本文的主要工作内容如下:(1)在对分布式计算系统和推荐算法的设计方案进行了深入的调研和分析的基础之上,设计了以Hadoop分布式计算平台和基于改进相似度的协同过滤推荐算法为基础的推荐系统,并提出了改进算法的设计方案,采用MATLAB仿真平台对算法进行了基于实际数据集的仿真。(2)对协同过滤推荐算法的改进方案进行了深入研究,针对协同过滤算法中的关键步骤计算相似度的算法,提出了统一多维度量化指标的杰卡德相似度算法(Jaccard Uniform Dimensions,JUD),并以此为基础设计了基于JUD的协同过滤推荐算法。最后针对近邻用户数量等对算法准确度有影响的因素进行了相关实验,证明了算法在平均绝对误差等指标上的提升。(3)基于MATLAB仿真平台对所提出的改进算法进行了针对实际数据集的仿真实验,并与近几年该领域的先进算法进行了比较,仿真结果显示算法在可行性和可靠性上表现良好,具有更好的推荐效果。