基于聚类技术的协同过滤推荐系统研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:whitewolf1573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与电子商务的快速发展,用户在选择商品时面临越来越严重的信息超载问题,协同过滤推荐系统应运而生.它依据其他用户对信息做出的评价来向用户提供商品推荐,帮助用户找到所需商品,从而顺利完成购买过程。   作为至今最成功的推荐技术,协同过滤推荐已得到了广泛的应用。但随着推荐系统的广泛应用和对其研究的不断深入,又出现了包括精确性、数据稀疏性、冷启动、可扩展性等在内的一系列问题与挑战。本文对其中的数据稀疏性和可扩展性问题进行了重点探讨和研究,并在此基础上提出了一个完整的解决方案。   首先,论述了协同过滤推荐系统在国内外的研究历史和现状,对目前的系统体系结构以及已有的协同过滤推荐算法设计等关键技术进行了较为全面深入的分析,在探讨已有研究成果的基础上进一步凝练了推荐系统的关键问题。   接着,深入分析了当前制约协同过滤推荐系统发展的关键问题及其产生的原因和可能导致的后果,并进一步阐述了各种已有的解决办法。针对数据稀疏性问题和可扩展性问题,在前人研究的基础上,构造了一种以新的组合协同过滤推荐算法(IHCFR)为基础的组合协同过滤推荐系统。与已有算法相比,新的推荐算法主要有以下改进:   1)将基于模型和基于内存方法相组合。基于模型是指离线状态下根据用户评分数据建立推荐模型,在运行期间将建立的推荐模型载入内存进行匹配计算:基于内存是指在算法运行期间将整个评分数据库都载入内存进行计算。IHCFR推荐算法利用聚类技术对用户评分数据进行用户和项目的向量分离并分别单独对用户和项目进行聚类,在需要实时产生推荐时,利用已有的聚类结果计算最近邻居集合并以此产生推荐结果。   聚类采用基于余弦因子改进的混合聚类算法(SGKM),它结合了K-means聚类算法的高效局部搜索能力和遗传算法的全局优化能力,采用交叉和变异概率的自适应控制,并在交叉和变异操作时用基因余弦因子(GCOS)进行个体控制,确保差的个体不会被引入下一代,有效改善聚类效果,进而提高在线推荐精度。   聚类的使用可以有效提高在线推荐的时间效率,当系统进一步扩展和数据量快速增长时,通过聚类算法周期性地重新训练和优化聚类结果簇,使得最近邻查找和产生推荐的候选集始终限定在一个较小的范围内,一定程度上缓解了系统的可扩展性问题。   2)将基于用户和基于项目相组合。在需要产生推荐时,综合考虑用户和项目的影响因素,分别计算目标用户和目标项目的最近邻集合,根据当前评分数据的稀疏情况自适应地调节目标用户和目标项目的最近邻对最终推荐结果的影响权重,给出最终推荐结果。在进行相似性的度量时,考虑到数据稀疏性,在相关相似性的基础上将用户之间共同评分的项目比例作为度量相似性的一个辅助因素,并且设置了一个权重指数来用于调整相似度的值空间,最大程度的降低数据稀疏性带来的影响。   最后,通过一系列实验来验证所提出算法的有效性。实验结果表明,本文提出的IHCFR组合协同过滤推荐算法能有效提高可扩展性,并能在用户评分数据极端稀疏情况下保持推荐系统的推荐质量。
其他文献
近年来,云计算技术在学术界和工业界都成为关注的热点。大型数据中心提供的服务,尤其是Web应用,以及使用的各种虚拟化技术构成了云计算的基础架构。数据中心中通常拥有大量的
数据存储策略的研究是无线传感器网络有关数据管理与处理的一项重要研究内容。其本质就是尽可能有效地利用有限的存储空间和有限的节点能量,将感知数据存储在网络中的某个确
逆向工程是近年来发展非常迅速的一个研究领域,应用领域非常广泛,是CAD/CAM领域缩短产品再设计与制造周期的重要技术之一。而曲面重构问题正是逆向工程中的关键内容。而随着
随着数据规模的不断扩大和用户数量的急剧增加,传统的结构化数据库访问面临的压力越来越大,提高MySQL等结构化数据库的读写性能成了一个亟待解决的问题。Redis内存数据库将所
随着微电子技术、通信技术和嵌入式计算技术的发展与进步,无线传感器网络得到了广泛地应用,并引起了国内外研究人员的的极大关注。为此,本文对无线传感器网络中具有重要意义
随着互联网应用的日渐多样化,在实际的互联网应用中,存在着大量对名人、明星、罪犯、热门图像等特定人脸图像的搜索需求。传统的文本检索具有检索方式单一的局限性以及检索精
随着Web2.0时代的到来,用户在互联网上发布信息的门槛变得越来越低,使得互联网上的信息量变得极其庞大。博客作为一种典型的Web2.0应用,以其简单、方便的使用方式吸引着越来越多
数据流作为一种新型的数据模型,在许多应用诸如网络流量管理、金融数据处理、交通治理以及电子商务中都扮演着重要的角色。在数据流挖掘技术日益得到广泛关注的今天,多数据流
医学图像三维重建是一个多学科交叉的研究领域,是计算机图形学和图像处理技术在生物医学工程中的重要应用。它涉及到数字图像处理、计算机图形学以及医学领域的相关知识。医
目前大量有用信息以文本形式存在,因此如何快速对大规模的文本分类成为亟待解决的问题。为应对这一问题,文本自动分类应用而生。文本自动分类结合了统计方法和机器学习理论,