论文部分内容阅读
近年来,随着网络信息技术的蓬勃发展,不断增多的冗余数据信息充斥于互联网,这导致人们越来越难发现自己想要的信息,信息过载问题产生。信息过载问题催生了众多行业和领域对个性化信息服务的需求,即如何能够快速有效地找到有用的信息与服务。为解决这一问题,不断满足企业和个人准确获取信息的需求,推荐系统应运而生。推荐算法作为推荐系统的核心实现方法,是推荐系统的核心实现过程。协同过滤推荐算法作为一种简单、直接的主要通过用户历史打分对未知打分项进行预测评估的方法,是推荐算法的一大分支,其中基于内存的协同过滤推荐算法主要包括用户(项目)相似度比较和预测打分两个过程。聚类作为一种无监督的机器学习方法,可以运用到邻居比较过程中,为推荐算法中的用户(项目)更快地提供更相近的邻居,在不失准确度的前提下提高算法运行效率。本文首先对 Clustering by Fast Search and Find of Density Peaks with Data Field(CFSFDP-DF)聚类方法进行了改进,使得原方法能够自动确定聚类中心数量和位置;其次,根据用户特征利用改进的算法Improved Clustering by Fast Search and Find of Density Peaks with Data Field(IMP-CFSFDP-DF)对用户进行预先聚类,并通过组合多种相似度比较和评估打分方法探索了九种组合模式对协同过滤推荐准确度的影响。具体如下:第一,利用多级高阶差分在数据处理上的特性,较为成功地改进了CFSFDP-DF算法,使得该聚类过程能够无人工干预地全自动进行。实验发现,IMP-CFSFDP-DF算法能够自动准确地确定聚类中心个数和位置,从而改进了原算法中需要人工干预选定聚类中心的不足,最终完成了聚类过程的全自动实现。第二,将 MP-CFSFDP-DF 算法同 CFSFDP-DF 算法、K-means 算法进行比较。实验发现,IMP-CFSFDP-DF算法在处理二维空间数据集时,能够更加有效地自动处理不同类型、具有不同特征的数据集,较好地发现线性、条状、球形、迥异密度等特征区域。第三,构建了基于IMP-CFSFDP-DF聚类的协同过滤方案。本文尝试使用IMP-CFSFDP-DF聚类算法对用户的三维特征信息进行预聚类处理,并使用K-means算法作对比;与此同时,IMP-CFSFDP-DF算法的应用也就扩展到处理三维数据集。第四,通过实验验证了基于IMP-CFSFDP-DF聚类的协同过滤方案的有效性。从邻居比较和预测评分两个过程各选取三种方法构成九种组合模式,将其结合两类聚类算法进行协同过滤推荐实验。结果显示,选用复杂的组合计算模型在某些数据集中不一定比其他方式更加有效,而简单+复杂模式(R1+AjCos,R3+Cos)的方案可能会得到更低的MAE值和RMSE值,即这种方案可以使得协同过滤推荐算法更加准确。另外,结合IMP-CFSFDP-DF用户聚类的协同过滤推荐算法在大多数情况下比结合K-means用户聚类的协同过滤推荐在准确度和时间效率上表现得更加优异。最后,实验显示,在大多数组合中,基于聚类的协同过滤推荐能够使用较少的邻居比较获得更低的MAE值和RMSE值,即其更适用于邻居比较数量要求较少的推荐系统。