论文部分内容阅读
近年来,互联网技术的迅猛发展使得Web成为人们获取信息的重要方式,用户在面对愈加丰富的信息海洋和各种类型的信息,反而迷失其中。推荐系统可以缓解“信息过载”引发的“信息迷失”问题。聚类技术应用到推荐中可以缓解数据稀疏、扩展性和冷启动等问题,但聚类技术的引入并不是都能提高推荐的效果。这是由于聚类方法本身具有一定的缺陷,如聚类质量不高、聚类结果不稳定等,再把这种不是很好的聚类结果应用到推荐中,必然会造成推荐质量下降。如何巧妙地将聚类技术运用到推荐系统中来提高推荐结果的准确率是基于聚类的推荐研究的重点。本研究的思路是:通过聚类技术建立用户聚类模型,利用该模型产生的填充评分可以解决协同过滤中数据稀疏性问题,同时,利用该模型来配置物质扩散算法中非均匀的初始资源值。基于此研究思路提出了两个推荐算法,合并聚类用户评分的协同过滤推荐算法(UCCF)和基于用户聚类的非均匀资源配置的物质扩散推荐算法(UCMD)。该推荐算法主要利用了聚类技术,把产生的用户聚类模型引入到推荐中。本论文的主要研究内容包括如下三个方面。(1)针对传统协同过滤推荐算法面临的数据稀疏问题,提出一种合并聚类用户评分的协同过滤推荐算法。首先对用户聚类,把目标用户所在聚类的其他用户作为近邻,合并聚类邻居的评分可以产生新的评分项,把这些评分填充到原有评分记录里。在新的评分数据下,我们重新计算用户间的相似度,通过这样的方法查找到的近邻较传统方法查找到的准确性更高,根据更加精准的近邻集合计算得到的预测评分准确率也更高。(2)针对二部图网络结构的推荐算法中物品的初始资源值设置为0/1的做法,提出一种基于用户聚类的非均匀资源配置的物质扩散推荐算法。首先根据用户对物品的评分对用户聚类,接着依据聚类模型,对目标用户选择过的物品和与目标用户在同一个聚类的用户选择过的物品设置不同的初始资源,最后利用经典的物质扩散算法进行后续推荐。(3)利用MovieLens站点上真实的数据集测试本研究提出的合并聚类用户评分的协同过滤推荐算法(UCCF)和基于用户聚类的非均匀资源配置的物质扩散推荐算法(UCMD)。UCCF算法的实验结果表明:在利用用户聚类模型填充评分之后的数据上和没经过填充的评分数据上使用标准协同过滤算法,前者的平均绝对误差(MAE)要低得多。UCMD算法的实验结果表明:算法在分类准确率、排名权重、用户与用户之间的多样性指标上都优于标准的物质扩散,新颖性和标准物质扩散持平,算法在提高推荐准确率的同时也提高了推荐的多样性,而且新颖性也保持在较高水平。