论文部分内容阅读
随着电子商务和网络通讯的兴起,互联网成为人们获取信息以及购物的重要工具,导致了数据的爆炸式增长,也就是信息过载。用户要从互联网上的茫茫信息海洋中找到自己需要的信息十分困难,因此,推荐系统应运而生。随着推荐系统的发展,各类技术也被应用到推荐系统中,协同过滤算法是其中应用最为广泛,并且最为高效的算法。“最近邻”思想是基于用户的协同过滤算法的基础,该算法基于这样一个前提:一个用户与喜好相似的用户喜欢的项目类型相同,该目标用户喜欢其相似邻居喜欢的项目,且目标用户未对其进行评分或者评论。基于用户的协同过滤推荐算法存在着用户兴趣对推荐效果造成影响不稳定,用户关系衡量不准确等问题,从而导致推荐精度不高。针对上述问题,本文对基于用户的协同过滤推荐算法进行了改进,主要工作如下:针对数据稀疏,以及传统算法忽略了用户兴趣源于关键词的问题,提出了结合用户兴趣度聚类算法。利用用户数据和项目属性数据,根据RF-IIF(Rating FrequencyInverse Item Frequency)方法,计算得到用户对关键词的偏好,之后进行k-means聚类。然后利用logistic函数得到用户对项目的兴趣度,明确用户爱好,在类簇中寻找目标用户的相似邻居,将邻居喜欢的前N个项目对用户进行推荐。最后利用Movielens数据集进行测试,实验仿真结果表明,算法提升了推荐准确率以及效率。针对传统算法用户关系衡量不准确的问题,提出了用户非对称相似度计算方法。结合奇异值矩阵分解,利用用户的潜在特征样本数量,计算共同评分项目数量所占该用户所有评分项目总和的比重,由此得到用户之间的非对称相似度,从而明确用户间的相对关系。利用Movielens数据集进行测试,实验仿真结果表明,随着邻居数量的增加,该算法的平均绝对误差始终优于传统算法,并且判断用户关系较为准确,预测评分比传统算法更接近实际评分。最后,将结合用户兴趣聚类方法和非对称用户相似度算法进行结合,提出了改进的基于用户协同过滤推荐算法。最后利用Movielens数据集将算法进行实验对比。实验结果表明,改进的算法能够在提升推荐精度的同时缓解数据稀疏问题。