论文部分内容阅读
推荐系统已经在多个不同领域中广泛应用,是一种智能高效的信息过滤平台,根据用户历史行为或者提供的需求中表现出的喜好、兴趣,为用户进行推荐可能感兴趣的项目。在推荐系统中,应用最成功、最广泛的推荐技术之一是协同过滤技术,而协同过滤的一个强大分支是概率矩阵分解推荐算法,在面对大规模数据、数据稀疏性问题时表现亮眼。本文总结了当前常用推荐算法的相关知识及基本内容,以概率矩阵分解算法(Probabilistic Matrix Factorization,简称PMF)的为基础,引入了谱聚类方法,从而挖掘用户社交信息。与此同时,本文使用贝叶斯的方法来改进概率矩阵分解模型,使得模型不再需要人工手动调参。还有另一个亮点就是本文使用吉布斯采样算法对模型进行采样训练,进一步提升模型精度。本文的主要工作和亮点包括以下几个方面:(1)对概率矩阵分解模型展开了较为深入的研究,详细地介绍了该算法的原理,包括矩阵分解和引入概率分布求解等相关知识并且将之应用到真实数据集中,验证了PMF对于解决数据稀疏性问题的优越性。(2)引入谱聚类算法,在进行矩阵分解之前先通过计算用户相似度,用聚类的方法把原始评分矩阵分割成数个子矩阵,本文提出的贝叶斯局部概率矩阵分解推荐算法(Bayesian Local Probabilistic Matrix Factorization,简称BLPMF)模型之所以能有效减轻“冷启动”问题影响,引入谱聚类算法是主要原因。(3)采用贝叶斯的方法优化传统概率矩阵分解算法。把系统参数作为服从高斯-威沙特(Gaussian-Wishart)分布的随机变量,转而估计该分布的参数(超参数)而不是像PMF算法一样,把系统参数当作一个固定值估计,需要人工仔细地调整参数,否则容易出现过拟合现象。(4)使用马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,简称MCMC)方法中的吉布斯采样算法对超参数,特征向量(如用户和项目)采样,自动选出最优超参数。(5)通过贝叶斯局部概率矩阵分解推荐实例研究,在一个由kaggle赞助商提供的脱敏处理过的APP活动数据集上进行应用实例研究,并对可能给算法效果带来影响的相关因素进行分析,验证了本文BLPMF算法的实用性和有效性。