论文部分内容阅读
随着网络信息技术迅猛发展,人们尽管有越来越多获取信息的方式,还是抵不住信息过载问题的影响——越来越难以准确、快速地定位到所需要的信息。个性化推荐系统是缓解信息过载问题,满足用户个性化需求的重要手段。针对推荐系统中传统基于用户的协同过滤推荐算法的数据稀疏、冷启动问题,提出了SUBCF_CK算法。相较于传统算法,SUBCF_CK算法主要改进工作如下:
为减轻用户-项目评分矩阵的稀疏问题对推荐效果的影响,SUBCF_CK算法基于项目分类,参考SlopeOne算法线性回归方法,根据用户间线性评分线差对评分矩阵进行填充。
对于冷启动问题,一方面,SUBCF_CK算法基于项目分类计算用户间的兴趣相似度,并对其设置影像性权重,以避免当用户间共同评分数据较少时兴趣相似度度量的偶然性;另一方面,利用社会化网络中“三度影响力原则”计算出用户间信任相似度,并将其与兴趣相似度相融合,减少新用户历史评分数据过少对推荐效果的影响。
在计算用户最近邻居时,将Canopy算法与K-means算法聚类思想融合,采用“粗聚类”、“细聚类”结合的方式,利用“最小最大原则”来确定聚类个数及初始聚类中心,避免了传统基于用户的协同过滤算法直接应用K-means算法时设置聚类个数及选择初始聚类中心的盲目性。
最后,将SUBCF_CK算法与传统协同过滤算法在Yelp数据集上进行对比实验,实验结果表明,SUBCF_CK算法效果更佳。
为减轻用户-项目评分矩阵的稀疏问题对推荐效果的影响,SUBCF_CK算法基于项目分类,参考SlopeOne算法线性回归方法,根据用户间线性评分线差对评分矩阵进行填充。
对于冷启动问题,一方面,SUBCF_CK算法基于项目分类计算用户间的兴趣相似度,并对其设置影像性权重,以避免当用户间共同评分数据较少时兴趣相似度度量的偶然性;另一方面,利用社会化网络中“三度影响力原则”计算出用户间信任相似度,并将其与兴趣相似度相融合,减少新用户历史评分数据过少对推荐效果的影响。
在计算用户最近邻居时,将Canopy算法与K-means算法聚类思想融合,采用“粗聚类”、“细聚类”结合的方式,利用“最小最大原则”来确定聚类个数及初始聚类中心,避免了传统基于用户的协同过滤算法直接应用K-means算法时设置聚类个数及选择初始聚类中心的盲目性。
最后,将SUBCF_CK算法与传统协同过滤算法在Yelp数据集上进行对比实验,实验结果表明,SUBCF_CK算法效果更佳。