论文部分内容阅读
随着信息2.0时代的到来,互联网的飞速发展使得人们获取信息的方式越来越容易,用户在面对海量的数据难以快速而准确的检索到对自己有用的信息,即信息过载问题。个性化推荐系统可以有效的解决信息过载问题,其核心就是推荐算法,而协同过滤算法就是一种研究成熟、广泛应用的推荐算法。推荐系统都会受到数据稀疏问题的影响,主要通过用户相似度计算的不准确性来体现。针对数据稀疏问题,本文从用户预先聚类和用户相似度算法改进两个方面进行了研究,分别提出了SKCA算法和RWDS算法,然后再将两种方法进行融合提出了结合用户聚类的协同过滤推荐算法。从用户聚类的思考出发,引入了物理学中的拓扑势场理论并通过拓扑势值进行用户重要性表示,针对K-means聚类算法需要用户自行确定类别个数这一不足,结合势场的影响因子对K-means算法进行改进提出了SKCA算法。SKCA算法可以自适应的选取聚类中心后计算出聚类结果以及各个类的代表用户,目标用户只需选择最近邻代表用户所在类中进行协同过滤推荐,结合MovieLens数据集与其它几种聚类算法进行对比实验,实验结果表明,SKCA算法可以实现推荐质量的提升。从用户相似度算法改进的思考出发,首先根据用户的评分数据对与用户评分习惯相异的反常评分项给予更高的权值以实现对项目加权,然后在Jaccard相似度仅考虑共同评分项比重的基础上加入共同评分项间差值的考虑以实现对相似度算法的改进,再将两者综合起来提出了RWDS方法。RWDS算法加入了评分的全局表现并充分利用评分的专业意义,结合MovieLens数据集与其它几种相似度算法进行对比实验,实验结果表明,RWDS算法可以有效提升推荐质量。最后,将SKCA方法和RWDS方法进行融合,提出了结合用户聚类的协同过滤推荐算法。通过与传统协同过滤算法和单独的一种改进算法进行对比实验,结果表明,结合用户聚类的协同过滤推荐算法可以有效缓解数据稀疏的影响,提升推荐质量。