面向稀疏数据的多视图个性化推荐方法研究

来源 :山东师范大学 | 被引量 : 3次 | 上传用户:songyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机网络和互联网商业模式的迅猛发展和日新月异,基于互联网的数据呈现爆炸式增长。这些数据具有规模巨大、维度高和稀疏性等特点,使得用户从中获取有价值信息的成本和难度大大增加,“信息过载”现象日益严重。个性化推荐是解决这一问题的重要手段,已经广泛应用于电子商务和社交网络等媒体中,它根据用户已有信息、兴趣和需求,将用户感兴趣的信息、产品推荐给用户。推荐系统依据模型构建方式分为三类:基于内容的推荐方法(content-based method)、基于协同过滤的推荐方法(collaborative filtering based method)和混合推荐方法(hybrid recommendation method)。尽管国内外对各种推荐方法的研究取得了很大进展,但仍然存在很多局限性。目前,协同过滤推荐是上述三种方法中最主流的方法,它具有模型简单、数据依赖性低等优点,但是依然存在数据高度稀疏、扩展性差、冷启动及用户偏好建模难等问题。1)数据稀疏性是协同过滤推荐的最大问题。协同过滤方法主要依赖于用户-项目交互矩阵(也称为用户-物品评分矩阵)产生推荐列表,该矩阵通常是极度稀疏的,如Netflix数据集的稀疏度高达99%,而Movielens-10M数据集包含大约98.7%的未知项,这使得单纯依靠交互矩阵产生推荐结果的诸多协同推荐系统推荐质量不高,不能有效筛选出满足用户需求的项目或商品。2)由于长尾效应(long tail)的影响,协同过滤中存在用户偏好建模难度大、复杂度高等问题。推荐系统中用户的评分分布极不平衡,少数用户评分列表中存在较多的评分项,而大多数用户的评分项较少,这使得推荐系统很难准确把握用户偏好和用户兴趣,导致用户偏好建模出现过拟合或欠拟合等问题。3)协同过滤推荐还存在可扩展性差和冷启动等问题。随着机器学习尤其是深度学习技术的发展,对各种复杂特征的利用方式逐步成熟,通过各种机器学习技术对多源数据进行分析、建模和特征提取来构建推荐系统是目前的研究热点。本文建立面向稀疏数据的多视图个性化推荐模型,针对上述问题展开研究。首先通过低秩矩阵补全算法对用户-项目交互矩阵缺失项进行填充,以解决数据高度稀疏性问题;然后在深度学习框架下将用户-物品交互矩阵与多种视图信息相结合对用户偏好建模,以解决用户偏好建模难及冷启动等问题。本文主要研究内容和研究成果如下:1)提出结合鲁棒非负矩阵填充及子集划分的协同推荐方法。很多传统矩阵分解方法由于分解结果中存在负值元素而具有较差的可解释性,而真实世界中许多应用要求数据满足非负约束,此外,用户-物品评分矩阵通常还伴有噪声和离群点等问题。因此,本文提出一种结合鲁棒非负分解的低秩矩阵填充及子集划分的协同推荐方法LR-RNMFC来解决上述问题。在低秩矩阵填充阶段,建立基于鲁棒非负分解的低秩矩阵填充模型,推导出有效求解该模型的迭代算法并提供了收敛性证明,该算法既利用低秩重构解对原始矩阵缺失项进行了填充,又得到其相应的鲁棒非负分解;在协同过滤推荐阶段,利用非负分解子矩阵所具有的聚类性质,通过块模型聚类方法对原矩阵的低秩重构解进行用户-兴趣子集划分,为目标用户产生推荐列表。实验结果表明,在大规模稀疏数据集中,该算法不但能有效对目标矩阵缺失项进行填充,且与已有协同过滤算法结合能够显著提高原有算法的推荐精度,这充分说明矩阵补全是一种解决评分矩阵稀疏性问题的有效方法。2)提出协同过滤中基于随机次梯度下降的低秩矩阵填充方法。用户-物品交互矩阵是利用机器学习技术构建推荐系统的主要数据来源,存在维度高、稀疏度高和评分分布极不平衡等问题,这大大增加了学习用户偏好特征的难度和复杂度。研究大型矩阵中基于核范数正则化的矩阵填充问题,提出协同过滤中基于随机次梯度下降方法的低秩矩阵填充算法SS-LRMC。针对传统SVT算法使用固定阈值对其奇异值进行收缩(shrink)存在的问题,及其在大型矩阵中存在的巨大计算开销,我们定义了自适应奇异值阈值收缩算子,将它与随机次梯度下降技术相结合得到低秩中间解。实验证明算法SS-LRMC性能优于目前流行的矩阵填充算法,将其应用于协同过滤推荐中能够有效缓解评分矩阵数据稀疏问题,并能显著提高推荐精度。而且,该算法实现复杂度较低,比较容易扩展到面向大型数据集的应用场景。3)提出基于多源信息感知的宽度深度推荐方法。虽然矩阵补全算法有效缓解了评分矩阵稀疏性问题,但该模型是对用户与项之间的线性交互建模,难以捕捉其中存在的各种复杂非线性结构。为了更好地对用户偏好和项特征建模,本文对线性模型LR-RNMFC进行深度扩展,建立融合用户-物品交互矩阵、属性与上下文等多源信息的宽度与深度推荐模型WDMMA,其中宽度部分主要考虑用户-项之间的线性交互,而深度部分基于多源信息对用户-项之间的高阶非线性特征建模。我们基于LR-RNMFC同时对WDMMA的宽度部分和深度部分进行预训练,在嵌入层之上设置了pooling层并定义了AC-pooling操作来捕捉用户、物品、属性和上下文信息之间的低阶交互,在pooling层之上通过全连接层来捕捉各种高阶非线性交互。在两个公开数据集上的实验结果显示,在深度学习框架中,同时考虑用户-项之间的线性交互与融合多源信息的高阶非线性交互是一种非常有效的方法,能够成功学习到特征间复杂的非线性模式,有利于提高推荐系统性能。4)提出基于注意机制的上下文感知序列推荐方法。除了上下文信息和属性信息,序列信息在推荐中发挥着越来越重要的作用。针对序列推荐过分关注序列变化而忽略邻接项之间的相关性这一问题,本文认为推荐列表不能完全受用户近期行为的影响,对用户偏好建模时需注重用户兴趣的延续性,提出基于注意机制的上下文感知序列推荐模型ACA-GRU。ACA-GRU将上下文分为输入上下文、相关度上下文、静态兴趣上下文和转移上下文四类,通过重新定义GRU单元的更新门和重置门,计算由这四类上下文所决定的RNN全局序列状态转移,对用户兴趣动态变化进行建模。为了解决序列推荐中的异常点问题,基于注意机制计算相关度上下文来区分评分序列中每一项对推荐结果的不同重要性,减少信息量不大、预测力不强的异常点对预测结果的影响。实验结果表明ACA-GRU的性能优于一般的上下文推荐算法和序列推荐算法,显示出注意机制在序列推荐方面所具有的性能提升。
其他文献
随着学生信息量的增大和信息化时代的到来,校园管理工作中的传统数据库显然已经无法满足越来越庞大的学生信息管理需求,而要想提高学生信息管理的工作效率,促进校园管理工作
找出共同点和衔接点,通过合理开发和利用,实现信息共享和同步管理。以建设单位为例,就项目信息管理与档案管理的联系与区别谈几点认识。
<正>一、新艺术运动的历程新艺术运动的名称来源于萨穆尔·宾(Samuel Bing)于1986年在巴黎开设的一间名为"现代之家"(La Maison Art Nouveau)的商店。最初只是被简单地称为现
苏轼是我国北宋中期文坛上的领袖,黄庭坚为苏门学士并开一代诗派。师徒之间诗文酬唱频繁,友谊非凡。从他们大量的酬唱诗文来看,二人之间的友谊体现在他们生活志趣以及人格理
为开发能够增加卷烟烟气烤甜香香韵的烟用香料,以焦麦芽为原料,采用卷烟感官作用导向分析和气质联用(GC/MS)方法确定了焦麦芽提取物中的烤甜香关键成分,并以这些成分的含量为
对近十年机电产品数据进行收集和整理,通过数据统计并制作图表,对机电产品出口贸易与低碳经济的关系进行了分析,并对我国现阶段机电产品出口结构、出口方式及存在的问题做出
建国六十年来,广大农民的生产生活方式发生了历史性变化。我国农民由自然经济条件下的个体农夫,到计划经济时期的集体农夫,再到改革开放后有越来越多的农民转变成为社会主义市场
通过对问卷调查数据结果的分析,认为高校在教育观念、教育体制、教育目的、教师素质、教学环节等方面存在不可忽视的问题,正视这些问题,高校才能更好地培养大学生的创新精神
目的了解我国社区卫生服务中心卫生人力资源现状,比较东、中、西部地区社区卫生服务中心医师与护士的结构。方法采用自填问卷方式,调查11省(自治区)、直辖市的200个社区卫生
<正>Ⅰ普罗科菲耶夫和肖斯塔科维奇是20世纪两位非常伟大的作曲家,他们在很多方面持对立态度,其中包含有关音乐语言结构的问题,对古典音乐遗产的看法问题,以及乐队的应用问题