论文部分内容阅读
大数据时代下推荐系统应运而生,推荐系统就是根据用户与项目的已知相关信息,然后预测该用户的后续行为。推荐系统区别于传统搜索引擎被动输出用户需要信息的方式,其通过用户与项目的个体信息、用户与系统的历史交互信息和交互的外界环境信息,构建用户兴趣模型,主动为用户推荐兴趣列表。然而推荐系统的原始数据中经常存在着人为噪声与自然噪声,其一直影响着推荐系统获得准确的用户偏好模型。人为噪声就是在推荐系统中注入虚假评分数据的用户,又称之为托用户,这种行为称之为托攻击。自然噪声则分布于整个评分矩阵,与托用户不同。 针对托攻击用户传统的托攻击检测算法虽然有较高的检测精度,但是其必须对特定类型的托攻击模型去人为的分析与设计对应的属性检测指标,所以缺乏自动化。本文为了克服这种问题,将深度学习模型中的栈式自编码器引入托攻击检测。其首先将每个用户评分向量归一化,然后输入栈式自编码器进行逐层训练,预训练完毕再进行整体微调,最后直接输出用户特征向量,实现了端对端的特征提取。所以将栈式自编码器引入到托攻击检测中的用户特征提取模块,降低了人为参与程度,经实验验证在两个标杆数据集上相对于其它算法,检测结果的精确度、召回率和综合指标均获得了较好的结果,其减少了设计属性检测指标的步骤,从而增强了托攻击检测的自动化程度。基于栈式自编码器的托攻击检测算法最终降低了托攻击用户对推荐算法的影响,使其表现的更加鲁棒。 针对分布在数据集中的自然噪声,本文将局部低秩的假设引入概率矩阵分解(Probabilistic Matrix Factorization,PMF)的框架中,从而得到局部概率矩阵分解算法(LocalProbabilistic Matrix Factorization,LPMF)。在局部低秩矩阵近似算法(Local Low-Rank Matrix Approximation,LLORMA)的实现过程中,原本完整的训练数据集被划分为了多个局部数据集,导致训练数据集进一步稀疏,但是PMF则在大规模的、稀疏的和不均衡的数据集上表现优异。所以LPMF学习特定数量的局部模型,然后以权重累加的方式预测最终评分,这种举措缓解了 PMF中过拟合的问题和 LLORMA算法中数据集稀疏性低的问题。因此LPMF结合了以上两种算法的优点,而又互相弥补了对方的缺点,经实验验证在不同的数据集上均获得了更高的预测评分精度。