论文部分内容阅读
随着互联网的高速发展,人类已经步入一个全新的智能化时代。由于信息的数据量正呈现指数级增长,且数据的种类日益繁多,传统的推荐系统已不能满足商家和消费者的双重需求。推荐算法的核心在于如何挖掘出更多的用户偏好信息,然后根据用户的兴趣点给出推荐。能反映用户偏好的信息除评分外,还包含伴随评分给出的评语。对评语进行语义分析可以挖掘出大量的用户偏好信息以及物品的潜在特征属性,有助于改善数据稀疏性和"冷启动"问题。本文研究的是推荐系统中的评分预测问题。本文将抽象的用户偏好融入到LDA(Latent Dirichlet Allocation)主题模型中,提出了引入用户评分和评语的贝叶斯评分预测模型。在互联网公开的数据集上做实验,证明了本文提出的理论方法能显著提高评分预测的准确度。本文的主要工作和贡献有以下两点:(1)本文将LDA文档生成模型引入到协同过滤推荐算法中,用主题解释抽象的用户偏好,并由此提出了基于贝叶斯理论的评分生成模型。该模型采用Gibbs采样算法对可观测到的样本信息进行参数估计。对于给定的用户和物品,该模型可预测出用户对物品的评分值。在MovieLens数据集上做实验,实验结果证明本文提出的评分预测算法比Item-CF、SVD++和PLSA-CF等传统算法的评分预测准确度更高。(2)为了挖掘更多的用户偏好信息,本文对伴随评分生成的评语信息进行了语义分析,模拟了评语中每个词的生成过程。本文提出了融合用户评分和评语的贝叶斯评分预测模型,并建立了基于LSTM的文本情感分析模型,对评语进行情感分析,解决了评分和评语不一致问题。(3)在京东商城的23个数据集上进行实验,证明了本文算法的评分预测准确度得到了显著的提高。最后,本文论证了该推荐算法具备较好的可解释性,且对椎荐系统的冷启动问题以及数据稀疏性问题有一定的改善。