论文部分内容阅读
随着计算机科学与互联网的飞速发展,社会网络分析成为了数据挖掘领域的一个重要研究课题。大量社会网络分析的相关研究都集中在同质信息网络上,但随着互联网上的数据信息逐渐多样化,社会网络分析的研究重点逐渐转向异质信息网络,很多数据挖掘任务(如分类、聚类、排序和相似性度量等)都利用了异质信息网络来整合多种异质信息。另外一方面,随着互联网上用户行为数据的大量积累,推荐也成为了一个非常重要的数据挖掘任务。推荐系统可以帮助用户找到自己感兴趣的物品,有效地缓解了互联网上信息过载问题。现实的推荐系统包含了多种类型的对象(如电影推荐系统中的用户、电影、演员和兴趣小组等)以及对象间丰富的关系连接,这些不同的对象和关系构成了一个异质信息网络。然而,常规的异质信息网络并没有考虑到连接上的属性值。在推荐系统中,用户对物品的评分(通常取值为1-5)正是用户与物品关系上的属性值,这导致了被广泛应用的元路径也无法准确地捕获对象间的语义关系。此外,如何利用异质信息网络对多种信息进行整合,并为用户学习到个性化且有区分度的信息偏好,也是本文需要解决的一个关键问题。针对上述问题,本文的贡献主要分为三个部分。第一,本文提出了带权值的异质信息网络和带权元路径等概念,通过引入具有区分度的连接属性值,更精细地描述了路径的语义。此外,本文提出了带权元路径下的相似性计算策略,使得原有的相似性度量方法经过修改后可以应用到带权元路径上来。第二,本文提出了一个基于语义路径的个性化推荐算法SemRec,更准确地预测用户对物品的评分。通过设置不同的元路径,SemRec不仅可以灵活地整合异质信息,还可以学到有区分度的、个性化的权重来表达用户对不同语义路径的偏好。通过在三个现实的数据集上进行对比实验,可以看到SemRec利用带权元路径整合信息,从而获得更好的推荐效果。此外,大量的实验证实了了带权元路径的优势。最后,作者根据SemRec推荐方法设计了一个电影推荐原型系统,该系统利用SemRec学到的个性化路径偏好权重对推荐结果给出合理的推荐解释。