论文部分内容阅读
根据不同用户的兴趣特征,个性化推荐技术进行有针对性的推荐,该技术的核心在于推荐算法的设计,算法设计的越好,推荐效果就越好。目前推荐算法可以分为基于内容的过滤算法(Content-filtering algorithm,简称Conf-algorithm)、协同过滤算法(Collaborative-filtering algorithm,简称Colf-algorithm)和混合推荐算法(Hybrid recommendation algorithm,简称HR-algorithm),其中的协同过滤算法又可以细分为基于内存的协同过滤和基于模型的协同过滤。本课题优化的加权Slope One算法属于基于内存的协同过滤算法。加权Slope One算法作为一种基于内存的协同过滤算法最大的优势是原理简单,易于实现,执行效率高,并且预测评分的准确度相对很高,而且它们支持在线查询和动态更新,这使得它成为现实世界中推荐算法的优秀候选者。不同于传统的协同过滤算法,加权Slope One算法并不计算项目或用户之间的相似度,而是使用一个简单的线性回归模型来预测评分,毫无区别地使用所有用户和项目的数据很可能对目标项目的评分预测造成偏差,进而影响推荐质量。针对加权Slope One算法没有充分考虑用户之间、项目之间的内在关联问题,本课题提出了基于用户相似度和项目相似度的加权Slope One算法优化策略,主要工作如下:1.针对加权Slope One算法在计算项目对间评分偏差均值时未考虑到不同用户与目标用户之间可能存在的关联,本课题将用户间的相似度作为权重因子引入到原有的算法公式中。在用户相似度的计算方式上,提出一种改进的Pearson相关系数策略,采用Pearson系数与归一化的欧几里得距离线性组合的方式弥补Pearson相关系数计算用户相似度的不足,同时在对目标用户最近邻集的选择上,提出一种相似度支持度的筛选策略。实验分析了杰西卡系数、余弦相似度、Pearson相关系数和改进的用户相似度计算方式在训练数据集的预测评估指标的表现。2.针对加权Slope One算法没有考量已被评分过的项目与待预测项目间的相关性,提出将项目相似度作为一个参数引入到原算法中。设计了一种新的项目相似度计算方式并整合到原有的计算公式中,该方式综合项目的类型标签相似度和项目评分相似度整体反映出项目间的相似度。改进后的算法将用户相似度和项目相似度作为权重因子加入到原始公式中,在提升了评分预测的准确度的同时增加了计算复杂度。通过在Movie Lens数据集的实验分析表明,优化后的算法在原有算法的基础上提高了3%-4%的准确率,并与其他两种加权Slope One算法的优化方法相比,取得了更好的评分预测准确度。