基于推荐系统冷启动问题的算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhaohui1590
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们越来越难以在各类信息海洋中快速定位自已所需要的信息,为了帮助用户能更快捷方便的从海量信息中找到自己所需求的信息,推荐系统已经成为关键的一部分了。为用户进行个性化推荐一直是推荐系统研究的热点,但是当面对一个刚进入系统的用户时,系统没有该用户的任何数据,即为“冷启动用户”,此时推荐系统不能进行个性化推荐。用跨域推荐来缓解冷启动问题是目前的研究热点,这一方法为解决冷启动提供了新的研究方向。跨域推荐是利用不同领域的数据,学习领域之间的关系,从而为冷启动用户进行推荐。本文主要是针对用户冷启动问题,在跨域推荐的基础上进行研究,提出基于矩阵三分解的跨域推荐模型。本文的工作内容主要是以下四点:(1)本文首先回顾并总结研究推荐系统中冷启动问题的意义和学者们对推荐系统和对冷启动问题的研究过程,介绍了四种经典的推荐算法,接着阐述了冷启动问题的理论知识,介绍缓解冷启动问题的算法:非个性化推荐、社交网络推荐、标签推荐。虽然这些方法为缓解冷启动问题做出了很大贡献,但是仍然存在很大的问题。就如在跨域推荐中,对域的潜在特征分解时只考虑用户-物品之间的二元关系,忽略了域本身具有的特征。同时在数据集中,两个域的评分矩阵存在与冷启动用户无关的用户,这部分用户对于分解的结果会带来噪声。(2)针对上述问题,本文提出基于矩阵三分解的跨域推荐模型,主要是针对跨域推荐中的潜在特征计算模型进行改进。传统的潜在特征计算模型采用矩阵分解的方法建立用户-物品的二元关系,本文在矩阵分解时,加入域因子,构建用户-域-物品的三元关系。通过矩阵三分解,分解出域潜在特征矩阵,捕获域因子与用户和物品之间的关系。(3)在以往跨域推荐中,对于常用的数据集中包含与冷启动用户无关的用户,本文提出首先对数据集进行筛选,设定阈值,对于不相关的用户进行剔除,从而优化数据集,同时筛选后的数据集维度降低,更有利于实验操作。此外,在潜在特征学习模块,本文采用多层感知机和梯度提升树做为学习模型,实现CDMTF-MLP和CDMTF-GBDT模型。(4)本文在MovieLens-Netflix和Amazon两个真实数据集上进行实验操作,验证基于矩阵三分解的跨域推荐模型的可行性,并与跨域推荐中的重要模型进行对比和分析。实验设定RMSE和MAE做为评价指标,在不同角度对比了两个数据集上的RMSE和MAE值,验证了本文模型的改进方法比较以往传统模型是合理有效并且具有可行性的。此外,针对数据预处理,重叠用户对目标域冷启动用户评级评分预测的准确度影响也进行了实验,并对实验结果进行了可视化展示和分析。
其他文献
真空电子器件不仅用于预警雷达、精确制导、导弹防御等国防军事领域,在卫星通信和导航、深空探测等民用方面也发挥着重要作用。现代真空电子器件正向高频率、大功率方向发展,从而要求扩散热阴极具备高发射的电流密度。本课题组使用液相共沉淀法已经制备出(Ba,Ca)2ScAlO5化合物,并在浸渍型阴极上取得成功应用,但是(Ba,Ca)2ScAlO5浸渍阴极实现大发射电流密度的工作机制仍不明确。为准确控制前驱体成分
近年来,序列化推荐系统由于其结合时序信息能够更好地获取用户的长期或短期的兴趣偏好的特点,超越了传统的基于协同过滤的推荐方法,被工业界和学术界广泛地研究和应用。总的来说,根据推荐系统是否与用户产生交互,序列化推荐系统可以分为静态和动态两种:1)静态序列化推荐系统集中于挖掘用户的历史交互信息来构建用户兴趣,更多的是面向短期的推荐;2)动态序列化推荐系统不仅要利用历史交互信息,还要建模用户在推荐过程中的
机器阅读理解是指使用算法让计算机理解文章的意思并回答相关问题的一种技术。由于计算机算力和存储能力的发展以及深度学习因其具有的特征提取能力,使用端到端技术构建机器阅读理解模型成了主要的研究手段。基于中文文本的机器阅读理解因为构建数据集困难发展比较缓慢。百度公司WebQA数据集的提出,填补了这一空白。BiDAF模型在英文SQuAD数据集上具有优异表现能力,本文试图将其迁移到WebQA数据集中,得到中文
随着近年来移动和物联网技术的快速发展,设备到设备(D2D)通信已被广泛使用。IEEE 802标准为D2D通信提供了许多协议,例如Wi-Fi,LTE和蓝牙。尽管D2D通信普遍且方便,但实际上现有的短距离非接触通信方式在安全性和灵活性方面存在许多不足。例如,蓝牙传输技术和NFC技术需要相应的硬件支持。另外,蓝牙传输技术在通信时需要提前建立良好的链路,这降低了通信效率。并且由于使用了开放的通信渠道,它面
近几年,国内龋齿患者大幅增加,口腔修复的需求日益增大,数字化口腔三维测量可以帮助医生快速完成口腔修复任务。因此,如何在低成本的前提下实现高速、高精度的牙模三维测量成为研究热点。本文对结构光三维测量技术和双目立体视觉方法进行结合和优化,进一步提高牙模的重建精度和准确度,具有重要的研究意义。本文的主要研究内容包括:(1)基于格雷码改进有序周期相移算法。有序周期相移算法仅需投射四幅条纹图案,就能得到精度
随着网络中传输的各类信息逐渐增多,如何确保这些数字信息的机密性一直是大众关注的焦点。作为保障信息安全的重要手段,公钥加密技术为多样化数字信息的安全传递提供了可靠的保障。而云计算的出现,更是为用户数据按需存储与即时访问提供了可能。但考虑到第三方云服务器的不可信赖性,如何确保存储在云服务器中的用户数据安全,保障数据的前向安全性仍然充满挑战。为了应对这一挑战,近年来,支持用户撤销的加密体制应运而生,并吸
图像的纹理主要是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理信息分为局部纹理信息和全局纹理信息,其中局部纹理信息不同程度的重复性构成全局纹理信息。一方面,纹理图案中的晶格(Lattice)的提取主要是识别出纹理图案中的具有视觉相似性的小的重复图案的部分,另一方面也便于形成一些比较复杂的纹理图案。另外,由于织物上一些重复图案的出现,使得对
2002年,匈牙利数学家A.Csaszar引入了广义拓扑空间的概念,对广义拓扑空间中的点集性质、子空间性质等做了研究,并在这个拓扑空间中取得了无数成果。广义拓扑实际上是一个半拓扑。因此,2015年胡西超等人将广义拓扑重新命名为上半拓扑,进而也引入下半拓扑的概念并且得到了关于下半拓扑空间中的一些基本结果。此后,不少研究者积极投入,将拓扑再重新剖分成左半拓扑和右半拓扑,并得到这两类半拓扑上的一系列结果
文字图像生成是一种跨模态的交叉性任务,文本描述的逐词含义和图像子区域语义信息之间的内容关联性与一致性,是此任务关注的核心问题。生成对抗网络在图像生成领域的成功使得文本图像生成模型有了新的驱动力,从不同角度进行技术革新的文本图像生成模型层出不穷。文本图像生成主要围绕三大技术问题:语义理解、图像生成和语义一致性。本文以这三大问题为方向,探究现如今基于生成对抗网络的文本图像生成模型的优势与不足之处,分别
数学应用题(MWP)的自动求解问题一直是机器智能研究领域的难点和重点,早在二十世纪六十年代就有学者投身该领域的研究,近年来机器学习的快速发展,大量研究人员通过新技术来解决数学应用题。解决该问题需要涉及多方面的技术,需要把人类语言描述的题目转换为机器可读懂得句子,机器可以通过这些信息进行计算推理得到正确答案。是自然语言理解和自动推理相结合的综合性问题。本文选择了一种先分类再解题的方法来解决数学应用题