基于变分自编码器的混合推荐方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:xmzhkj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
混合推荐系统旨在根据用户与产品的历史交互记录以及用户/产品特征信息为用户推荐感兴趣的新产品。由于变分自编码器模型(variational auto-encoder,VAE)在建模高维稀疏数据时具有独特的表示学习优势,其被广泛地应用于推荐系统领域处理用户侧或产品侧信息。然而,大部分现有推荐系统仅使用VAE模型作为提取用户/产品隐藏特征的工具,并未充分考虑用户交互与用户/产品特征信息各自具有的独特优势与不足,从而导致了推荐结果中存在一定的不确定性、噪声与偏差。针对上述问题,本文将VAE模型推广到混合推荐系统,使其作为一个整体且系统的变分推理框架优势互补地处理用户交互、用户属性与产品特征等多模态信息,从而在提升产品推荐准确度的同时增强模型的鲁棒性。总体来说,本文提出基于VAE的混合推荐系统旨在解决如下关键问题:从交互信息的角度来说,大量用户或产品的历史交互较为稀疏;在更新迭代较快的电商平台中,甚至经常出现没有任何历史交互信息的冷启动产品。因此,如何提升推荐系统对交互信息不足的用户或产品的推荐性能成为本文研究的首要问题。此外,在收集的用户历史交互数据中,如果存在同时影响产品曝光与用户交互的因素,即混淆因子,则其会在产品曝光与用户交互之间建立虚假的联系,从而造成模型对用户偏好的估计中存在系统性偏差。因此,如何从有偏的观测交互数据中无偏地估计用户偏好成为本文研究的另一大难题;从用户/产品特征的角度来说,由于现有特征工程的限制,提取的用户/产品特征中可能存在大量无法消除的个性化噪声。因此,如何在充分利用辅助特征信息降低推荐结果不确定性的同时,减轻特征噪声对模型的影响也成为本文将VAE推广至混合推荐系统的一大挑战。为了解决这些关键问题,本文从用户、产品与因果推理三个角度出发,通过设计新的隐空间结构、生成过程与推理算法等手段将VAE推广至混合推荐系统,从多角度提升其对交互不确定性、特征噪声与未观测混淆因子的鲁棒性。首先,从用户的角度而言,为了解决VAE模型在学习历史交互稀疏用户的隐藏表示时具有较大不确定性以及用户特征中含有大量噪声的问题,本文提出了一个基于变分带宽自编码器(variational bandwidth auto-encoder,VBAE)的推荐系统。该模型从信息论的角度出发,将用户交互与用户特征信息的融合过程建模为一个依赖用户的随机信道。该信道可以依照每一个用户历史交互信息的充分程度调整其带宽大小,从而能够动态地决定从含噪用户特征中允许融入的信息多少。为了实现该信道动态对交互-特征信息融合的调控能力,本文继而提出了一个量子力学启发策略从用户的历史交互中解缠交互信息的不确定性信息与承载用户偏好的语义信息,并将得到的交互不确定性度量作为计算信道带宽的依据。于是,在基于可变带宽信道的交互-特征信息融合机制下,VBAE既可以在交互信息不确定性较大时引入额外特征信息辅助推荐,又能在交互信息置信度较高的时候降低模型对于含噪用户特征的依赖,避免了模型的过拟合。其次,从产品的角度而言,针对面向用户的自编码推荐系统(user-oriented auto-encoder,UAE)因为舍弃建模产品隐变量而无法利用产品信息辅助推荐以及无法推荐冷启动产品的弊端,本文提出了一个基于变分耦合自编码器(mutuallyregularized dual collaborative VAE,MD-CVAE)的推荐模型。观察到UAE的最后一层权重与产品间存在一一对应关系,该模型首先使用有序堆叠的产品隐变量替代了UAE模型中随机初始化的网络权重,使其作为接口引入产品内容信息。接着,本文通过巧妙设计MD-CVAE的概率生成过程,以最小化UAE网络权重与对应产品内容隐变量均方误差的方式将MD-CVAE的产品内容模块与UAE模块紧密耦合在一起,使其在进行冷启动产品推荐时,UAE解码器中冷启动产品所对应的缺失权重可以由其内容隐变量来替代;最后,本文提出了一种针对用户隐变量的对称推理方法,其将MD-CVAE编码器作为解码器的转置,解决了存在新产品时UAE无法推理用户隐变量的问题,从而赋予了UAE模型推荐冷启动产品的能力。MD-CVAE是一个紧密耦合的推荐系统。其使得产品特征与用户交互互相促进,共同学习到更加以推荐为导向的用户/产品隐藏表示;并且,其对称结构也使其可以在不需要模型重训练的情况下直接推荐冷启动产品。最后,从因果的角度而言,针对未观测的混淆因子可能导致基于UAE的推荐模型根据历史交互建模用户偏好时存在偏差的问题,本文提出了一个基于深度因果自编码器(deep deconfounded recommender,Deep-Deconf)的推荐系统。该模型首先设计了一个具有分解Logistic似然的VAE模型从产品对于用户的共同曝光模式中推理得到可以使得不同产品对于同一用户曝光条件独立的隐混淆因子作为未观测真实混淆因子的替代。接着,本文证明在一定的条件下在推荐模型中控制该隐混淆因子可以消除由于真实混淆因子带来的混淆偏差。最后,本文证明了通过上述方法估计得到的用户偏好隐变量与交互预测值可能具有较大的方差,并证明在模型中引入用户特征作为额外的干预前变量加以控制可以大幅提升模型的采样效率。综上,Deep-Deconf模型以较小的方差实现了针对未观测混淆因子的无偏性,又具有较低的方差与较高的可解释性。因此,该模型可以在一定程度上解决未观测混淆因子对基于UAE的推荐模型造成的负面影响。在实验中,本文在多个真实推荐数据集上进行了详细的算法评价与分析(包括citeulike,movielens和Amazon数据集等),验证了本文提出三个将VAE模型推广到混合推荐系统的策略在降低模型不确定性、提升模型对特征噪声的鲁棒性、推荐冷启动产品与消除混淆因子造成的偏差等方面具有一定的优越性。
其他文献
文学类文本阅读是2023年高考语文试题中重点考查的现代文阅读文本类型,以全国4套试题为主要研究对象,分析高考文学类文本阅读试题命题依据、考查内容及形式特点,探讨高考命题规律与统编版高中语文教材的关联性,能够厘清教、学、考的关系,从而为指导高中语文文学类文本阅读教学提供参考。
期刊
超级电容器因其输出功率大、充放电速度快、使用寿命长等特点,成为一类极具前景的能量存储设备。电极材料是超级电容器的核心,决定了器件的容量和循环性能。MXenes是一类二维过渡金属碳化物/氮化物,通式为Mn+1XnTx(n=1–4,M为过渡金属,X为C和/或N,Tx为表面官能团),由于其具有二维层状结构、类金属导电性、可调端基和嵌入赝电容电荷存储机制等优点,在储能领域显示出巨大的潜力。然而,二维MXe
学位
固体电解质因其特殊的综合性能和高安全可靠性,可作为取代传统锂电池有机电解液的候选材料,因此,研发高离子导电性的固体电解质是重要的发展方向。本文以NASICON(Na superionic conductor)型磷酸盐陶瓷和玻璃陶瓷固体电解质为研究对象,探索提高固体电解质电导率的方法,为研究和开发高性能固体电解质材料提供理论和实践依据。主要研究内容如下:用固相烧结法制备三价M3+阳离子(Al3+、C
学位
随着电子信息时代的到来,电磁辐射已成为日常生活中的潜在危害,研发新型、高效的吸波材料迫在眉睫。铁氧体吸波材料损耗能力强、吸波频带宽、成本低,近年来受到广泛关注。本文采用溶胶凝胶法制备了一系列钡铁氧体及其掺杂氧化物,使用多种仪器对样品进行表征,探究了元素掺杂对钡铁氧体物相形成、微观结构、晶粒形貌、元素价态变化、磁性能、微波吸收性能等方面的影响。首先,使用溶胶凝胶法制备了BaFe12O19(BFO)基
学位
多铁材料是指材料中含有铁磁、铁电等不止一种铁质的材料,因此在磁传感、磁存储器件等领域有着广泛的用处。BaFe12O19(Ba M)六角铁氧体具有大的垂直磁晶各向异性,化学稳定性和大的矫顽力,在微波和垂直磁记录方面具有广泛的应用。特别地,由于Ba M和Mn3O4具有特殊的磁结构,可以诱导铁电极化,是研究多铁材料磁电耦合机理的良好载体。因此,本文以Ba M六角铁氧体及Mn3O4为研究对象,对其制备工艺
学位
高分辨率卫星遥感影像具有覆盖范围广、宏观可视化程度高等特点,被广泛应用于城市规划、地图制图、环境监测等领域。随着我国科学技术的发展,国产高分辨率遥感卫星影像的空间分辨率不断提高,大大扩大了遥感影像的应用范围。但在卫星成像和数据传输过程中,卫星受到成像环境、硬件条件等各种因素的限制,高分辨率卫星遥感影像上普遍存在条带噪声,严重影响了影像的判读和解译。因此,对高分辨遥感影像上的条带噪声进行去除具有重要
学位
自发现SmCo永磁材料后,通过合成、掺杂等多种方法对其磁性能进行了许多研究。目前,含Cu的SmCo基永磁材料由于具有高的内禀矫顽力、高温度稳定性和良好的耐腐蚀性等优点成为研究的热点。为了综合利用稀土金属资源,添加稀土金属Ce的Sm-Co永磁材料受到了广泛关注。为理清稀土Ce在Sm-Co永磁材料中的存在形式以及对其微观组织结构的影响,需要(Sm-Ce)-Co基合金的相组成、相平衡及相稳定性等基础信息
学位
老龄化进程逐步加快,社会养老负担不断加重,给我国的经济发展造成巨大压力,出现经济增长落后于人口老龄化进程的现象,社会期待高质量的现代养老服务。运用文献分析、多角度分析等方法,从家庭、社会、政府和自我4个层面,剖析黑龙江省当今养老服务发展存在的问题,提出在新时代高质量发展视角下,子女注重陪伴老人、企业提升养老服务、国家出台与完善政策和建立老年活动中心等措施,可以促进我国养老服务持续发展,让养老服务能
期刊
在长距离无压输水隧洞设计计算过程中,往往很难准确把握渐变段局部水头损失的大小,这就为实现精准输水设计增大了难度。为了探寻一种无压输水隧洞不同尺寸渐变段的局部水头损失系数的计算方法:过流面积比法,根据渐变段两个断面之间的水流能量方程,依托水工模型试验,应用“四点法”分别对于渐变段4个测点的水位、流速进行测试,利用局部水头损失的测算观测数据,分别采用比拟法、面积比法、直接法计算得出隧洞渐变段局部水头损
期刊
近年来,随着环境的不断变化以及对能源需求的不断增加,利用光催化分解水和光催化降解有机污染物成为处理此类问题的重要技术手段之一。但如何将太阳能转换成氢能仍然面临着巨大的挑战。目前,光催化反应面临的主要问题是成本高且产量很低。石墨相氮化碳(g-C3N4)是无金属化合物,其自身合成成本较低是具有作为光催化剂潜力的半导体。虽然g-C3N4合成简单、可吸收部分可见光。但是单一的g-C3N4的活性位点较少;在
学位