一种基于聚类的协同过滤推荐算法的研究

被引量 : 0次 | 上传用户:www_com_me
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络信息技术的蓬勃发展,不断增多的冗余数据信息充斥于互联网,这导致人们越来越难发现自己想要的信息,信息过载问题产生。信息过载问题催生了众多行业和领域对个性化信息服务的需求,即如何能够快速有效地找到有用的信息与服务。为解决这一问题,不断满足企业和个人准确获取信息的需求,推荐系统应运而生。推荐算法作为推荐系统的核心实现方法,是推荐系统的核心实现过程。协同过滤推荐算法作为一种简单、直接的主要通过用户历史打分对未知打分项进行预测评估的方法,是推荐算法的一大分支,其中基于内存的协同过滤推荐算法主要包括用户(项目)相似度比较和预测打分两个过程。聚类作为一种无监督的机器学习方法,可以运用到邻居比较过程中,为推荐算法中的用户(项目)更快地提供更相近的邻居,在不失准确度的前提下提高算法运行效率。本文首先对 Clustering by Fast Search and Find of Density Peaks with Data Field(CFSFDP-DF)聚类方法进行了改进,使得原方法能够自动确定聚类中心数量和位置;其次,根据用户特征利用改进的算法Improved Clustering by Fast Search and Find of Density Peaks with Data Field(IMP-CFSFDP-DF)对用户进行预先聚类,并通过组合多种相似度比较和评估打分方法探索了九种组合模式对协同过滤推荐准确度的影响。具体如下:第一,利用多级高阶差分在数据处理上的特性,较为成功地改进了CFSFDP-DF算法,使得该聚类过程能够无人工干预地全自动进行。实验发现,IMP-CFSFDP-DF算法能够自动准确地确定聚类中心个数和位置,从而改进了原算法中需要人工干预选定聚类中心的不足,最终完成了聚类过程的全自动实现。第二,将 MP-CFSFDP-DF 算法同 CFSFDP-DF 算法、K-means 算法进行比较。实验发现,IMP-CFSFDP-DF算法在处理二维空间数据集时,能够更加有效地自动处理不同类型、具有不同特征的数据集,较好地发现线性、条状、球形、迥异密度等特征区域。第三,构建了基于IMP-CFSFDP-DF聚类的协同过滤方案。本文尝试使用IMP-CFSFDP-DF聚类算法对用户的三维特征信息进行预聚类处理,并使用K-means算法作对比;与此同时,IMP-CFSFDP-DF算法的应用也就扩展到处理三维数据集。第四,通过实验验证了基于IMP-CFSFDP-DF聚类的协同过滤方案的有效性。从邻居比较和预测评分两个过程各选取三种方法构成九种组合模式,将其结合两类聚类算法进行协同过滤推荐实验。结果显示,选用复杂的组合计算模型在某些数据集中不一定比其他方式更加有效,而简单+复杂模式(R1+AjCos,R3+Cos)的方案可能会得到更低的MAE值和RMSE值,即这种方案可以使得协同过滤推荐算法更加准确。另外,结合IMP-CFSFDP-DF用户聚类的协同过滤推荐算法在大多数情况下比结合K-means用户聚类的协同过滤推荐在准确度和时间效率上表现得更加优异。最后,实验显示,在大多数组合中,基于聚类的协同过滤推荐能够使用较少的邻居比较获得更低的MAE值和RMSE值,即其更适用于邻居比较数量要求较少的推荐系统。
其他文献
采用溶胶-凝胶法制备了系列Ru/TiO2和Ru/TiO2/SiO2可见光活性光催化剂。通过TEM、XPS、XRD、UV-Vis漫反射和电化学对样品进行了表征。发现Ru和Si的存在可以抑制TiO2的相转变
指出了PM2.5对人体健康具有显著危害,当前我国多个城市PM2.5严重超标,已成为需重点控制的大气污染物。综述了PM2.5对健康影响的研究方法及毒性机理研究现状,以期为PM2.5的健
首先对全国各个监测点进行PM2.5浓度值的相关性分析,确定相关性较强的区域,然后根据全国各地的PM2.5实时监测数据描绘出各地PM2.5浓度等高线图,发现其扩散的4条特征,再结合我
虚拟现实技术的快速崛起,展现出其应用在各个领域中的巨大可能性。本文简述了虚拟现实技术的定义和特点,并探讨其在院前急救工作中的应用潜力,同时对虚拟现实技术存在的问题
在现场考察和工程地质勘察的基础上,详细分析了贵匀高速公路百鸟坡隧道左线进口边坡的工程地质条件及其变形特征,认为在暴雨条件下,坡体的覆盖土层与部分强风化层沿强弱风化
以辽宁某小区人工开挖岩质边坡为工程研究背景,结合现场地质环境调查、地质勘查及与岩体相关的室内试验,得到该岩质边坡的工程地质条件和岩体的物理力学参数,进而分析人工岩
目的 探讨VR教学系统在血管外科领域中的应用和效果.方法 以第二军医大学2014级临床医学五年制第二教学班62名本科生为研究对象,随机分为VR教学组和传统教学组,每组31人.VR教
针对我国深部煤层气资源丰富,但因经济和技术条件有限,很难对其进行常规开采的问题,提出了CO2捕获、利用与封存(CCUS)技术,采用该技术不但可提高深部不可采煤层中CH4的采收率
<正>我是一个用汉语写作的藏族人。我出生于四川省西北部的阿坝藏族羌族自治州。从富饶的成都平原,向西向北,到青藏高原,其间是一个渐
近年来大数据计算已成为研究热点,Hadoop和Spark都是基于MapReduce框架的广泛应用的大数据计算平台,其性能主要取决于任务调度的优劣。因此,基于MapReduce框架的Hadoop和Spar