论文部分内容阅读
随着互联网的普及和计算机技术的快速发展,越来越多的数据涌入我们的生活中。海量的数据造成了信息过载的问题,用户容易被没有价值的信息所干扰。推荐系统通过对用户历史行为的分析,研究用户的兴趣偏好,主动地向用户推荐可能感兴趣的信息,能够有效缓解这种情况。传统的推荐算法依靠用户的历史评分进行推荐,但是由于评分矩阵的稀疏,对于缺少数据的用户难以生成合适的推荐结果。然而除了评分,还有许多的辅助信息能够有助于挖掘用户的兴趣偏好。关于用户、物品或者行为环境的信息都可能影响用户对物品的喜爱程度。图模型作为一种直观描述变量间相互关系的方法正被越来越多的应用到推荐系统中。基于图模型的算法能够灵活引入新变量并对变量间的相互关系进行建模。本文基于图模型算法对如何利用评分信息以外的辅助信息提升推荐效果进行了研究。本文首先提出了引入种类信息的基于矩阵分解的偏好感知算法。目前,大多数矩阵分解推荐算法通过引入偏差项表征出用户评分行为的系统性偏向,但是并不能捕获评分中隐含的用户和物品之间的关系。而本文提出的引入种类信息的偏好感知推荐算法在矩阵分解的框架下引入变量对用户偏好进行建模,捕获用户与物品之间的偏好。算法中用高斯先验分布生成用户的隐藏特征向量和电影的隐藏特征向量。根据已知种类信息的不同,用户和电影的隐藏特征向量的生成方式不同,一个由单独的高斯分布生成,另一个由混合高斯分布生成,然后通过加入偏好因子改善评分预测的准确度。在两个MovieLens数据集上进行的实验结果表明,引入种类信息的偏好感知推荐算法能有效利用种类信息提升推荐效果。相关研究成果已发表在2016年12月在美国阿纳海姆举办的国际会议The 15th IEEE International Conference on Machine Learning and Applications(ICMLA)中。本文还提出了引入文本信息基于主题模型的推荐算法。传统的推荐算法无法利用物品的文本信息进行推荐。为此,本文提出一种基于主题模型的推荐算法,从含有文本信息的数据中提炼出电影的主题以及用户的兴趣,根据电影主题的分布与用户兴趣分布的相关性完成推荐。本文提出的基于R-LDA模型的推荐算法可以同时处理用户评分数据和电影的文本描述信息。R-LDA模型在对电影的文本信息进行主题建模的同时将用户兴趣和电影的文本描述信息关联上,挖掘出用户评分与用户兴趣和电影主题之间的联系。实验结果表明,在top-N推荐中,基于R-LDA模型的推荐方法能有效利用文本信息提升推荐效果。