论文部分内容阅读
随着信息技术的发展,大量信息充斥着各类互联网平台,如电子商务平台,社交网络平台和在线教育平台等。而人们精力有限,只能处理非常有限的信息,这就是信息过载问题。为解决这一问题,推荐系统应运而生。推荐系统能够根据用户在各平台上已有的行为历史,挖掘出用户的潜在偏好,从而向其推荐相应的物品。协同过滤是目前最为流行的推荐算法之一,它已被工业界广泛应用,并且在研究领域也颇受重视。协同过滤算法的主要出发点是“协同”,即根据已有的用户—物品交互历史,利用众人或众物品的集合智慧进行推荐。 数据稀疏性问题是协同过滤技术所面临的最为严峻的难题之一,它是指已有的用户—物品交互历史占所有用户—物品的比例非常少,因此不能很好的学习到用户和物品的特征,从而大大降低了推荐系统性能。现有的系统主要通过利用一些额外信息,如用户社交信息、物品内容信息和上下文信息,来更好的学习用户和物品特征。然而,现有的方法一方面,没有综合利用所有信息来全面的学习用户和物品特征;另一方面,没有充分挖掘各类信息所蕴含的价值,因此,他们的推荐性能受到了限制。再者,现有方法主要利用额外信息来缓解数据稀疏性问题,在额外信息也非常稀疏的情况下时效果不佳。因此,需要创新的思路和方法来解决这一问题。此外,标签系统近年来发展迅速,很多平台上都添加了标签功能。标签系统中的特殊信息(即标签)可以用于缓解其上的数据稀疏性问题,从而提升推荐性能。然而,现有的大多方法忽略了平台的特殊性,它们利用一般性的方法处理特殊平台上的数据稀疏性问题效果也不理想。文本提出了若干方法来更好的解决数据稀疏性问题及现有研究所存在的问题。论文的主要工作和贡献概括如下: 为了综合利用所有信息并充分挖掘各类信息所蕴含的价值来全面的学习用户和物品特征,提出了一个上下文感知的协同主题回归及社交矩阵分解模型。首先,基于上下文信息使用聚类方法对用户—物品进行聚类,使得每个子类中的用户—物品有相似的上下文。然后,提出了一个新颖的分层贝叶斯模型,去对每个子类中的未知评分进行预测。我们的方法利用社交矩阵分解去处理评分和用户社交信息,利用主题模型的方法去挖掘物品内容中所蕴含的语义信息。接着,在Epinions数据集中与目前最好的六类方法做对比,实验说明我们的方法具有更好的准确率和召回率。最后,通过实验研究四种不同类别的信息对推荐性能的影响。 为了解决现有方法在额外信息也很稀疏的情况下推荐性能不佳的问题,提出了一个半监督学习与协同过滤算法结合的框架,即链图模型。所提出的链图模型是一个贝叶斯网络和一个马尔科夫随机场的结合。用贝叶斯网络来模拟评分的生成和回归,用马尔科夫随机场来模拟基于评分置信度的评分平滑特点。因此,我们的模型能将贝叶斯网络和马尔科夫随机场有机的结合起来,从而具有他们两个的共同优点,即同时模拟评分的生成、回归和平滑。最后,为了测试模型的有效性,将提出的模型应用于两类主流的潜在因素模型中,并在三个流行的数据集上做了对比实验。实验结果表明,我们的模型跟现有的模型相比在四个评价准则方面都有显著提升,特别是在数据稀疏性场景下。 为了解决标签系统上的数据稀疏性问题,提出了一个能够捕捉标签系统中用户—物品之间语义关联信息的推荐模型。我们的模型首先使用主题模型的方法来挖掘蕴含在标签之中的每个用户和物品的语义信息,然后把每个用户和物品的语义信息与矩阵分解模型结合,最后使用标签的隐式偏好信息来将用户和物品的语义信息关联起来。因此,我们的模型能够捕捉到用户和物品之间的语义关联信息,并能够极大的提升推荐系统的性能,特别是在“无共同评论的数据稀疏性”场景下。最后,在两个非常流行的数据集上做了对比实验,实验结果表明,我们的方法在准确率和召回率方面能够极大的提升已有的推荐系统的性能。