论文部分内容阅读
随着移动互联网的发展和人工智能、大数据时代的到来,人们在享受着信息服务带来的便利的同时,也出现新的难题:信息过载。面对信息过载问题,推荐系统应运而生。协同过滤是推荐系统中应用最广泛的算法,随着用户和项目的不断增长,用户和项目交互数据的稀疏性严重制约着该算法的推荐效果。而推荐系统的性能于企业而言意味着精准营销,增加收入,对用户来说则是提升使用体验,降低选择成本,因此,研究如何提升推荐系统的效果具有重要意义。
本文从协同过滤算法的分类标准出发,分别对基于内存的推荐和基于模型的推荐进行研究,介绍了两类推荐现有的研究方法,总结了其局限性后并给出具体解决方案,分别设计了融合S型相似度和关联度的协同过滤、基于自编码器(AE)和双反馈的深度协同过滤两种算法,然后在公开数据集上验证了两种算法的有效性,最后基于两种算法设计了一个混合推荐系统。主要工作包括:
1.简要介绍推荐系统的基本组成和分类标准,然后分别详细阐述基于内存的推荐和基于模型的推荐的基本原理,并总结两种算法的适用环境和优缺点,阐明分别研究两种算法的必要性和意义。
2.在基于内存的算法中,针对相似度度量不准确问题和候选集项目的弱相关问题,本文在算法流程中分离候选集生成和评分预测阶段,在两阶段中分别引入关联度和S型相似度来缓解上述问题。在候选集生成阶段,引入关联度定量描述项目之间的联系,并使用关联矩阵代替现有算法使用的相似度来生成候选集,大幅度提高用户感兴趣比例;对于相似度不准确问题,分析了现有相似度的缺点,然后设计一种S型相似度来刻画理想增长曲线,最后在算法流程中融合两者,使用S型相似度为候选集中的项目预测评分。在MovieLens和Netflix数据集上的对比实验表明,本文算法的推荐效果更好,生成的候选集规模更小,避免了预测阶段的无效计算。
3.在基于模型的推荐中,与只关注单一类型数据的大部分研究不同,本文引入显式和隐式反馈数据,并设计一种新的损失函数与双反馈数据匹配,特征提取阶段使用自编码器得到用户和项目的隐向量,随后分析主流模型中内积运算的线性局限性,借助深度神经网络代替内积从双反馈数据中学习用户和项目间的复杂关系,这样得到的基于AE 和双反馈的深度协同过滤算法既能学习显式数据的信息,又能挖掘隐式数据的价值。从对比实验来看,在命中率(HR)和归一化累计增益(NDCG)两个评价指标上,本文算法推荐性能均优于对比算法。
4.首先总结基于内存和基于模型两类算法的优缺点,然后以本文两种算法为基础,选用加权法组合两种算法,得到混合推荐模型。最后根据此模型设计混合推荐系统,采用MATLAB GUI开发UI模块,以界面的形式展示用户的历史记录和推荐效果。
本文从协同过滤算法的分类标准出发,分别对基于内存的推荐和基于模型的推荐进行研究,介绍了两类推荐现有的研究方法,总结了其局限性后并给出具体解决方案,分别设计了融合S型相似度和关联度的协同过滤、基于自编码器(AE)和双反馈的深度协同过滤两种算法,然后在公开数据集上验证了两种算法的有效性,最后基于两种算法设计了一个混合推荐系统。主要工作包括:
1.简要介绍推荐系统的基本组成和分类标准,然后分别详细阐述基于内存的推荐和基于模型的推荐的基本原理,并总结两种算法的适用环境和优缺点,阐明分别研究两种算法的必要性和意义。
2.在基于内存的算法中,针对相似度度量不准确问题和候选集项目的弱相关问题,本文在算法流程中分离候选集生成和评分预测阶段,在两阶段中分别引入关联度和S型相似度来缓解上述问题。在候选集生成阶段,引入关联度定量描述项目之间的联系,并使用关联矩阵代替现有算法使用的相似度来生成候选集,大幅度提高用户感兴趣比例;对于相似度不准确问题,分析了现有相似度的缺点,然后设计一种S型相似度来刻画理想增长曲线,最后在算法流程中融合两者,使用S型相似度为候选集中的项目预测评分。在MovieLens和Netflix数据集上的对比实验表明,本文算法的推荐效果更好,生成的候选集规模更小,避免了预测阶段的无效计算。
3.在基于模型的推荐中,与只关注单一类型数据的大部分研究不同,本文引入显式和隐式反馈数据,并设计一种新的损失函数与双反馈数据匹配,特征提取阶段使用自编码器得到用户和项目的隐向量,随后分析主流模型中内积运算的线性局限性,借助深度神经网络代替内积从双反馈数据中学习用户和项目间的复杂关系,这样得到的基于AE 和双反馈的深度协同过滤算法既能学习显式数据的信息,又能挖掘隐式数据的价值。从对比实验来看,在命中率(HR)和归一化累计增益(NDCG)两个评价指标上,本文算法推荐性能均优于对比算法。
4.首先总结基于内存和基于模型两类算法的优缺点,然后以本文两种算法为基础,选用加权法组合两种算法,得到混合推荐模型。最后根据此模型设计混合推荐系统,采用MATLAB GUI开发UI模块,以界面的形式展示用户的历史记录和推荐效果。