基于神经嵌入的推荐系统技术及方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:pkbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的快速发展,整个世界从信息匮乏走向信息过载时代。想要从海量信息中准确而又快速的为用户找到其感兴趣内容变得更加的困难。为了解决这样的问题,个性化的推荐系统应运而生。其构建方法主要有三大类:基于内容,协同过滤和混合推荐。本文主要研究协同过滤相关算法。协同过滤算法通过分析用户历史的交互行为(例如,点击和购买)并提供个性化的推荐服务。在各种协同过滤技术中,矩阵分解被广泛应用。该方法的特点是利用潜在特征向量来表示用户或物品,并将用户和物品投影到共享的潜在向量空间中。相对于矩阵分解模型中只有两种类型(用户和物品)的特征,因子分解机模型则考虑了更多的类型特征。矩阵分解和因子分解机两种算法的初始化大部分采用随机方式。这无法充分利用用户-物品(例如,点击和购买)的数据。本文针对矩阵分解和因子分解机算法的特点进行改进设计,主要围绕以下四个内容进行研究:·针对数据稀疏问题,将词向量应用于矩阵分解,提出基于神经嵌入的矩阵分解泛化模型。首先使用概率自动编码器,从用户-物品数据中生成物品的神经嵌入向量。之后,将物品向量与基于单点负采样的回归模型相结合,用回归系数表示用户的隐含特征向量。最后,将内积应用于用户和物品的潜在特征,以确定它们之间的相关性。需要指出的是,所提的方法是泛型的,可以在其框架下表达和推广矩阵分解。在本研究中,将岭回归学习应用于每个用户的潜潜在特征向量。在两个基准数据集上的实验结果表明,该模型优于其他最新的方法。·针对因子分解机难以同时获得局部和全局相关性的问题,提出基于概率自动编码器的有效因子分解机模型。传统的因子分解机模型在同时捕获用户-物品相关性的局部和全局结构方面性能较差。虽然深度神经网络已被应用于改进因子分解机,但深度网络增加了训练过程的复杂性。提出了一种基于概率自动编码器的因子分解机器模型方法来解决这一问题。该方法通过集成一个低复杂度的概率自动编码器,从用户-用户/物品-物品共现对中提取非平凡的局部结构特征。此外,它支持显式和隐式反馈数据集。在四个真实数据集上的大量实验证明了该方法的有效性。实验结果表明,在评分预测任务方面,所提方法优于现有的方法。相比较使用基于深度神经网络的模型,所提出模型方法在物品排名至少提高了 1.16%~4.37%。·针对负采样偏差及奇异值分解的随机初始化问题,提出将物品流行度作为权重因子,以及神经嵌入作为初始化的奇异值分解并用于协同过滤。奇异值分解是推荐系统中最有效的算法之一。由于奇异值分解算法的迭代性质,一个很大的挑战是初始化,它对模型的收敛性和性能有很大的影响。遗憾的是,现有的奇异值分解算法通常是以随机的方式初始化用户和物品特征,因此没有充分利用用户-物品的数据信息。针对如何开发有效的奇异值分解算法初始化方法。提出了一种通用的神经嵌入初始化框架,利用低复杂度的概率自编码神经网络初始化用户和物品的特征。该框架支持显式和隐式反馈数据集。详细阐述并讨论了本论文提出的框架的设计细节。实验结果表明,基于奇异值分解的推荐系统的初始化框架比现有的算法和文献中的其他矩阵分解方法至少提高了 2.20%~5.74%。·针对因子分解机随机初始化问题,提出神经嵌入的因子分解机模型并应用于用户响应预测。由于因子分解机模型只是线性地描述了特征间的相互作用,它们不能准确地捕捉数据的非线性复杂关系。此外,因子机模型中的随机初始化严重影响了模型的收敛性和性能。并且,因子分解机模型不能充分利用数据信息。虽然基于深度神经网络的模型最近被提出用于高级特征交互,但是训练深度结构是一个复杂的问题。为了解决这些问题,提出了一个基于神经嵌入因子分解机模型,该模型基于概率自动编码器的无监督预训练框架,有效地初始化了嵌入层。所提方法巧妙地结合了因子分解机模型在二阶特征交互建模中的良好线性和深度网络结构在建模非线性特征交互方面的优势。实验结果证明了该方法的有效性。例如,所提方法性能比未经预训练的模型至少提高了 6.99%。与基于深度网络的预训练模型相比,所提方法的测试误差至少降低了 1.02%。
其他文献
股权结构是公司治理问题的逻辑起点(Becht et al.,2003)。在我国股权集中、投资者保护相对较弱的制度背景下(Allen et al.,2005),大股东在公司治理中发挥着举足轻重的作用。近年来,新一轮国有企业混合所有制改革逐步推进,主要的方式包括“推进国有企业混合所有制改革”、“引入非国有资本参与国有企业改革”、“鼓励国有资本以多种方式入股非国有企业”。这意味着在未来一段时间内,“民营
学位
在台湾地区所实行的政治制度中,“选举”已经成为了民众政治生活的主要内容,尤其是其“总统”选举更是成为台湾地区政治、经济、社会、两岸等各方面走向的风向标。从1996年开始的“总统”选举中,本来弱势的民进党赢得了七次选举中的四次,也借此成为了当前台湾地区的第一大党。在历次“总统”选举中,民进党的竞选策略成为其“险中求胜”、“逆风翻盘”的主要支撑,也是其二十多年来由弱变强,多次执政的关键因素。因此,抓住
学位
强化学习算法是一类让智能体在与环境的交互中进行学习的算法,即让智能体学会如何将环境状态映射成自身的动作的方法,并使得环境反馈的回报信号的数值最大化。在引入深度学习后,强化学习算法的应用范围得到拓展且性能得以提升,但同时也带来一些问题。本文的主要工作分为三大部分,分别面向强化学习的三个关键的问题:(1)值函数近似误差对算法造成的负面影响;(2)强化学习算法需要依赖大量的采样;(3)强化学习算法的稳定
学位
近年来,空间光场调控在基础物理,经典物理及量子物理领域逐渐展露出其重要的应用价值,已经成为当前光学研究的前沿。在量子领域,空间模式与二维偏振相比具有高维纠缠的优越性,可以实现大容量的光通信并增强保密性,在高维量子领域具有重要的应用前景。实现高容量通信的基础是高维的量子通信资源,即空间模式的高维纠缠态。系统是否具备高维纠缠资源是实现高维量子通信及其他量子应用的关键。这产生了一个重要的科学问题:如何对
学位
多线激光雷达可以快速地提供大范围内的高精度点云数据,它为自动驾驶汽车对环境的感知提供了可靠的数据保障。车辆对周围环境和自身运动状态的正确感知是自动驾驶汽车自主决策的前提,其中,对自身运动的感知主要是判断自动驾驶汽车自身在当前环境中的位置和姿态,它为车辆的路径规划和运动控制等提供了决策依据。基于多线激光扫描点云的运动估计可以使自动驾驶汽车不依赖于卫星导航系统和惯性导航系统,从而减少天气或环境的干扰,
学位
当前海域活动越来越频繁,诸如海域生物、船舶、通信设备、探测设备等不明目标声源的信息交互已是暗涛汹涌,致使国家海洋边界安全态势更扑朔迷离。因此,研发水声信号辨识方法和平台,及时检测出不明目标的水声信号,对保障海域安全和保护海洋生物具有重要意义。时频变换算法提取的时频特征能区分不同水下目标的声信号之间差异,因此成为水声信号识别的关键研究点。当强海洋背景噪声干扰和水声信号调频分量具有快时变和紧邻甚至频点
学位
随着人们对健康的重视程度加大和医疗水平的提升,目前已得出防控慢性病的最佳公认结论:“保合理膳食,持良好生活”。然而,治疗费用高昂、周期漫长等因素造成临床康复效果较差,而大数据时代又带来健康数据量大、关系类型多以及解决方案复杂等问题,从而导致仅通过临床医学来快速减少因慢性病造成的死亡显然不现实。因此,辅助医疗多学科交叉运用数据挖掘(DM)、深度学习(DL)、知识图谱(KG)等成熟的应用技术来防控慢性
学位
高等职业技术教育是我国高等教育的主要组成部分,它在高等教育大众化乃至普及化发展进程中发挥着独特而重要的作用。改革开放以来,我国高等职业教育的快速发展为国家经济腾飞和社会进步培养了大批技术技能人才,做出巨大贡献;另一方面,在促进社会经济转型和产业升级进程中也面临着新的严峻挑战。在建设中国特色社会主义的新时代,深入探索高等教育大众化、普及化发展路径,构建和优化高职教育专业退出机制,对于培养高素质的专业
学位
从全球能源的需求以及温室气体和污染的加剧的角度出发,对新能源技术的需求得到了重视。几十年来,可再生能源(比如太阳能和风能)起到了重要作用,但是它们的间断性将会导致严重的供求不匹配。电化学能量系统在能源可持续性;能量转换、节约和储存;污染控制/监控;以及减少温室气体方面起到了关键作用。碱金属热电转换器是一种利用太阳能、核能或化石燃料燃烧产生的热量来发电的电化学装置,是一种极好的热电转化装置。本文主要
学位
在对人类活动行为分析中,从图像或视频中精准地刻画出人体的三维运动姿态尤为关键,其能够为人类行为的感知和识别提供重要的研究基础,对促进人类智能系统(如:自动驾驶、人机交互、以及智能监控)的发展是至关重要的。三维人体运动姿态估计是近年来国内外的研究热点,其主要任务为从给定的二维图像或者视频中重构出人体的三维运动姿态。在三维人体运动姿态估计算法中,常用的两类策略为基于判别式的方法和基于产生式的方法。虽然
学位