论文部分内容阅读
随着计算机和网络技术的进一步发展,信息的生产渠道越来越多,每时每刻都有海量的信息产生,“信息过载”问题必将会越来越严重。面对互联网上庞大的信息,互联网用户很难快速寻找到自己真正需要的信息。 为了解决“信息过载”问题,逐渐形成了两种方案,分别为:信息过滤技术和信息检索技术。作为信息过滤技术的重要应用,推荐系统可以在一定程度上解决“信息过载”问题。如今,推荐算法已经成为当前学术界的研究热点,技术人员提出了很多新颖而有效的推荐算法。协同过滤推荐算法已经成为了个性化推荐系统最普及的技术,其核心理念是分析用户过去的行为数据,建立用户偏好模型,计算目标用户与其他用户之间的相似度,其中相似度最高的多个用户组成最近邻居集合,这些用户的兴趣与目标用户最相近,然后通过分析这些最近邻居用户的行为偏好,预测目标用户对哪些物品感兴趣。 虽然协同过滤推荐算法已经被成功应用到诸多领域中,但是仍然存在着许多迫切需要解决的问题。比如,消费者的购买行为可能会受到好友的影响,然而大部分的协同过滤推荐算法却很少考虑用户之间的影响关系;用户对商品的购买时间先后次序或者评分时间等都有可能会掩藏着一定的规律,然而大部分的协同过滤推荐算法没有考虑过时间的因素,也没有挖掘其中的隐含规律;传统的相似度计算方法有一定的局限性,容易过分夸大或缩小相似度,所以传统的相似度计算方法无法很准确地计算相似度;在现实数据中,由于用户评分数据的极端稀疏性,计算用户间的相似度将更加困难,导致推荐精度较低。 针对上述问题,本文重点研究如何进一步提高用户之间相似度计算的准确性,提高推荐算法的推荐精度,实现高质量的个性化推荐。本论文的主要研究成果总结如下: (1)由于数据的极度稀疏性会大大降低传统的协同过滤推荐算法的推荐效率,提出一种基于云填充的组合相似度的协同过滤推荐算法,首先通过云模型为用户-项目评分矩阵填充数据,然后将基于时间序列的用户影响力融合到基于Jaccard系数的相似性度量方法中。其中,融合参数通过人工取值的方法寻找最优解。在MovieLens数据集上进行验证,这种改进的相似度计算方法确实在一定程度上降低了数据的稀疏程度,进而提升了推荐效率。 (2)针对传统的相似度计算方法在数据高度稀疏的情况下容易过分夸大或缩小相似度的问题,利用用户的消费时间先后信息来挖掘用户之间的相互隐含影响关系;寻找不同用户共同评分过的项目集合,计算用户对这些项目的评分差异,通过一种加权的信息熵度量不同用户的评分相似程度;最后由随机粒子群优化算法寻找最优融合参数,将时序行为影响力和基于加权信息熵的相似度融合。实验结果表明,这种改进的相似度计算方法更符合实际情况,最终相似度的准确性更高,进而能够有效地提高推荐精度。 本文通过对上述研究内容和创新点分析和讨论,改进传统的协同过滤推荐算法中用户相似度的计算方法。深入分析各种因素对个性化推荐算法准确度的影响,建立更加准确的邻居用户模型并应用到实际推荐场景中。验证结果表明,本文所提出的两种改进算法可以有效提升推荐精度,使推荐结果更加准确,为进一步研究个性化推荐算法提供帮助。