论文部分内容阅读
随着网上各种电影、音乐、文章和购物等网站的不断发展与扩充,使得用户在查找信息时变得越发困难,同时一些信息也无法被访问。如何在大量且零散的信息中挖掘出兴趣信息,使得用户越发关注。尽管传统协同过滤推荐算法可以从用户的角度和物品的角度为用户推荐感兴趣的信息,但是数据稀疏性使得它的推荐效果不是很理想,并且传统的推荐系统没有考虑用户兴趣的变化。鉴于上述问题,本文提出了一种改进的协同过滤算法,该算法以知识图谱作为物品语义的补充工具,并结合了用以表示用户兴趣衰减的时间项。本文将针对数据稀疏性和兴趣衰减进行以下研究工作:针对传统推荐算法存在的数据稀疏性问题,本文提出了以知识图谱作为物品的语义补充工具应用到协同过滤算法中。在对知识图谱的研究中,本文主要涉及到两个要点,一是知识图谱的构建,二是实现知识图谱到协同过滤算法中的应用。首先,本文将针对算法的应用领域研究电影知识图谱的构建,主要研究知识图谱的模式层和数据层。在模式层中根据电影里的知识特征提取相应的概念,划分电影的实体和关系,并建立了电影领域的本体数据库。然后,通过电影的关系属性从相关的电影网站抽取相应本体的具体实例的属性和关系,对知识图谱的数据层进行补充。最后,将标准三元组数据导入neo4j图形数据库进行存储,从而实现知识图谱的建立。接着,针对知识图谱如何应用到协同过滤算法中方法,本文根据经典的知识图谱知识表示方法-TransE模型提出了一种相似性负采样(TransE-SNS)的训练模型,通过k-means聚类方法将知识三元组的实体进行簇划分。在进行采集负例时,只采用同一个簇的实体进行替换,从而提高负例的训练质量。通过模型训练,将实体和关系嵌入到低维语义向量空间中,丰富了低维空间中实体和关系的关联。通过计算物品语义的相似度和物品评分相似度将两者进行融合,得到知识图谱嵌入协同过滤算法中的最佳比例。针对用户的兴趣存在变动的问题,本文在知识图谱应用到协同过滤算法的基础之上提出了一种考虑兴趣实时性问题的改善的算法。利用牛顿冷却定律函数来拟合艾宾浩斯遗忘函数,通过引入适用本文的物品热度衰减的时间项,得到本文最终应用的物品相似公式。通过评分预测,将相似性高的前N个物品作为近邻项目,然后利用排序对目标用户进行推荐。本文提出的改进后的算法相较于传统协同过滤推荐算法,在应用性能方面都有了较明显的改善效果。