论文部分内容阅读
随着信息技术和互联网的快速发展,信息资源成指数级别增长,面对严重过载的信息,用户很难快速定位到对自己有用的信息资源,从而耗费大量的时间搜寻自己想要的内容。这使得推荐系统应运而生,它能够根据不同用户的喜好来有针对性地为其提供个性化推荐服务。目前,在众多的个性化推荐技术中,协同过滤算法表现出其独有的优势,以致它被广泛的应用,特别在电子商务领域取得了相当大的成功,但是传统的协同过滤算法存在数据稀疏性、冷启动、实时性等问题,如果能有效的克服,不仅能够提高用户满意度,同时还提高销售利润。本文以推荐系统为基础,以推荐技术为主线,研究了个性化推荐系统,个性化推荐算法及相关技术,并进行比较分析;接着针对目前应用较好的协同过滤算法的问题,引入了项目属性和用户特征来构建项目属性矩阵和用户特征矩阵,提出基于用户相关相似性和基于项目相关相似性计算方法;另外,对聚类技术进行了相关研究,利用Kruskal算法对传统K-means聚类进行改进,实现自动确定初始聚类中心;最后对基于用户和项目方向的聚类进行了相关研究,提出将基于项目属性聚类的初始预测结合基于用户特征聚类的最终预测来做出推荐。主要在如下几个方面做了研究工作:第一,针对传统协同过滤算法过度依赖于用户—项目评分矩阵会面临严重的数据稀疏性问题、冷启动问题,本文将用户特征信息和项目属性信息有效利用,避免出现“相似而不相同”的现象的同时也克服了新项目和新用户问题,提出了分别基于项目属性和基于用户特征相关的相似性计算方法;第二,对传统K-means聚类进行了深入研究,针对其初始聚类中心人为随机选择敏感的问题,提出了一种能够自动生成相对比较均匀分布的K个初始聚类中心的改进聚类算法;第三,为有效的降低了协同过滤算法中近邻查询空间,同时在项目属性和用户特征矩阵上分别采用改进后的聚类算法进行聚类,明显能降低计算维度,提高推荐效率;第四,针对用户评分稀疏性问题,结合基于项目聚类的邻居查找结果和原始评分矩阵做基于项目的初始预测填充原始评分矩阵。其中,缺乏评分的新用户或新项目用本文前面改进的相关相似性计算方法代替传统评分相似性查找邻居,克服了冷启动问题;最后,将基于用户聚类的邻居查找结果结合填充完好的评分矩阵做基于用户的最终评分预测,使推荐精度较高。第五,为了验证本文提出的改进算法的有效性,在所选MovieLens数据集上分别将该改进的协同过滤算法与一些传统的协同过滤算法进行了分析和对比实验。实验结果表明该方法最终推荐质量优于其他传统推荐算法。