论文部分内容阅读
随着互联网技术的不断发展,互联网已经成为人们日常生活中不可或缺的一部分。然而互联网的信息过载问题,使得人们无法从海量信息中提取自己需要的信息。为解决该问题,推荐系统应运而生,其核心思想是通过用户历史行为数据猜测出用户的兴趣爱好,并且根据猜测的爱好推荐相匹配的商品信息。协同过滤是推荐系统应用得最为广泛的技术之一,其关键步骤包括为目标用户选取近邻和对商品进行预测评分。但大部分用户的行为数据具有稀疏性,这为近邻的选取以及商品的预测带来了挑战。本文在稀疏的用户行为数据上,结合近邻的快速搜索方法以及近邻的传播方式来研究协同过滤方法,较好地解决了数据稀疏性和预测准确性的问题。本文的创新工作总结如下:(1)提出基于快速近邻搜索的协同过滤算法。在协同过滤算法中,组合相似度相比于简单相似度具有更高的推荐准确率。但在近邻搜索时,采用组合相似度的时间开销比采用简单相似度的要大很多,从而降低了推荐效率。为此,本文提出基于快速近邻搜索的协同过滤算法。首先,根据用户的评分习惯,将行为数据划分为高、中、低兴趣三个部分,反映了不同兴趣程度的物品空间。然后,在相对应的物品空间中分别选取近邻,并且通过近邻传播获取间接近邻。最后,对三个物品空间中的近邻用户进行合并作为目标用户的最终近邻集。在三个电影数据上的仿真实验验证了本文算法既可以提升时间效率,又能在一定程度保证推荐准确性。(2)提出基于子空间集成的近邻搜索的协同过滤算法。一般来说,快速算法会带来某种程度的性能损失。为了提高基于快速近邻搜索的协同过滤算法的性能,本文提出了基于子空间集成的近邻搜索协同过滤算法。在划分了三个物品空间之后,本文定义了共同评分支持度来计算用户之间的可信任度。通过加权把三个物品空间融合为一个空间,在此空间中进行近邻搜索。由此生成的近邻用户集体现了不同物品空间之间的差异性,又减少了无效近邻用户的影响。在三个实际数据集上的实验结果表明所提方法具有较好的推荐性能,不仅能提供好的近邻用户且所花时间代价也不大。(3)提出基于近邻迭代预测的协同过滤算法。数据稀疏性问题不仅对近邻的选取有影响,而且对商品的预测也有很大的影响,这两个步骤正是协同过滤推荐算法的核心。为了进一步提高推荐算法的性能,本文引入邻域传播的思想,提出了基于近邻迭代预测的协同过滤算法。该算法通过利用近邻的传播来传递信息,从而实现迭代地更新物品的预测评分。在迭代过程中,考虑近邻用户所提供评级信息的可靠性,加入了传播权重,且传播权重是随着迭代次数衰减的。实验结果表明,所提出方法有较好的预测能力,能够提高了推荐的准确度,较好地解决了协同过滤算法中存在的数据稀疏性的问题。(4)基于上述提出的算法,本文开发了一款电影推荐系统。该系统通过用户的注册与登陆记录用户历史评分与推荐结果,并且会根据用户对所给出电影提交的评分,自动生成新的、更加符合其兴趣爱好的电影集合。另外,在主界面上,通过对用户推荐当前热门电影,可以收集到用户的偏好,这样也为用户能够获得更加准确的推荐提供有效的信息。