基于评论文本的深度推荐系统

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ifever2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的推荐算法,例如协同过滤算法(CF),它依赖于用户-项目评分。但是,随着数据量增长,评分数据也将变得更加稀疏,这一问题会影响推荐系统的准确性和可解释性。现在,许多电商网站上提供了大量的评论文本信息,这些评论文本是更具语义的信息,在一定程度上可以缓解冷启动、数据稀疏等问题,并可以让推荐结果更具解释性。因此有不少学者正在研究基于评论文本的深度推荐系统。然而,如何利用评论文本更准确地表达用户偏好和项目特征是基于评论文本的深度推荐算法的研究重点。本文创新性地提出了一个基于评论文本的融合Sentence-BERT和门控机制的神经注意力推荐模型——NAFSBG,重点在于更准确地表达用户、项目的特征向量,使得评分预测更加准确。具体的,本文的创新点如下:(1)使用Sentence-BERT预训练模型对评论文本进行初始编码。传统的卷积神经网络对评论文本的特征学习能力相对较弱,不能很好地学习评论文本的特征表示。而Sentence-BERT使用了 Transformer这个当下最主流的特征抽取器,使得评论文本的初始编码向量就较为准确。(2)设计了双线型注意力模型来探索评论文本的有用性。本文认为,没有用的评论对用户的参考价值较小,同时也会损害模型的性能。因此,采用注意力机制来刻画每一条评论的权重来表达用户、项目的特征是很有必要的。(3)设计了一个新颖的门控机制以有效地融合ID特征向量与评论文本最终的特征向量。在数据量较大的情况下,使用门控机制相比于过去的工作中只是简单地把ID特征向量与评论文本最终的特征向量进行相加或拼接,能更好地将两者特征融合起来,得到更加准确的整体特征表示。本文在10个开源数据集下进行全面的实验,在均方误差评价指标(MSE)下,通过实验结果对比可以发现,本文提出的NAFSBG模型相较于传统的基于评分的推荐模型以及其它基于评论文本的推荐模型,效果都有所提高。且数据集密度越高(即评论文本数量越多),NAFSBG模型提升的效果越明显。
其他文献
非线性光学晶体作为一种重要的信息功能材料,其先决条件是具有非中心对称的晶体结构。高效定向设计合成具有非中心对称晶体结构的化合物仍是当前研究的热点和难点。研究发现,具有立体化学活性孤对电子的阳离子(Bi3+、Te4+等)与阴离子配位时极易形成不对称的结构基元,能够显著增加化合物形成非中心对称晶体结构的几率。因此本文在磷酸盐基础上,通过引入Bi3+、Te4+阳离子,以期设计合成具有非中心对称晶体结构的
学位
有限混合模型在聚类和分类中有着重要的作用,是聚类重要方法之一,可以用来处理多个混合分布类型的数据。基于混合模型的应用十分的广泛,但也存在一些问题。比如应用最广的EM算法进行参数估计时会对初始值很敏感,传统的聚类方法如K均值聚类、层次聚类法等无法获得聚类特征重要性。尖顶平板最早被提出来是在线性回归中做特征选择,也可以用于混合模型中。在此情况下,本文选用有限混合模型同时进行特征选择,采用贝叶斯方法获得
学位
为了解决严重的环境污染问题,迫切需要开发一些可再生清洁能源来替代化石燃料。电解水技术因其能产生具有高热值的可持续清洁氢能而备受关注。其中,析氧反应(OER)由于涉及的反应动力学比较缓慢复杂,严重制约了电解水技术的实际应用。因此,研究出高活性、廉价、稳定的OER电催化剂迫在眉睫。过渡金属磷酸盐由于具有高活性和良好的动力学特性备受关注。可以通过使用不同的有机膦酸盐配体,对其基团、结构等进行调控,优化其
学位
为了研究受精卵的胚胎发育过程,生物学家运用4D共焦影像技术,在单细胞水平对秀丽隐杆线虫的基因表达动态行为进行定量观测。这种数据有以下三个显著特点:第一是时空异质性;第二是高噪声;第三是树形结构。本论文旨在通过发展统计聚类算法,对发育过程中的基因表达模式进行探究。首先,我们运用样条拟合方法对单细胞高噪声数据进行降噪;然后,我们将细胞分裂分化过程抽象成一个二叉树模型,并对树形结构数据进行分枝处理;随后
学位
黄金具有规避风险和保值的作用,在金融市场或者国际局势动荡时,国家和投资者往往会选择购买黄金。因此,预测黄金价格具有实际意义。本论文针对2010年至2019年的COMEX黄金期货进行研究,通过分析黄金的历史价格波动,发现黄金价格受到外界因素的影响,且价格序列具有非线性特征。由于近年来深度学习发展迅速,在处理非线性时间序列上表现较好,故本论文选用深度学习的模型进行预测。首先利用线性插值填补黄金期货和1
学位
蛋白质是承担人类生命活动的基础物质,往往通过与其他生物大分子相互作用发挥其生物学功能,例如细胞传递、信号传导等。DNA结合蛋白就是蛋白质中能与DNA结合发生作用的一种特殊蛋白质;蛋白质之间也会发生相互作用,预测它们相互作用的位点能加深对蛋白质相互作用原理的理解。但是随着蛋白质数据爆炸式地增长,依靠现有的实验方法并不能满足生物工作者的需要,所以设计一种高效便捷的蛋白质功能及位点预测方法成为生物信息学
学位
现有的图像去雾方法仍存在很多问题。例如,去雾不均匀、高度依赖合成数据集及泛化性较差等问题。针对上述提到的问题,本文主要研究以下两个方面的内容:1、提出基于循环上下文聚合网络的图像去雾方法。现有多数图像去雾方法极易出现去雾不均匀问题。为了缓解该问题,本文设计了一个上下文聚合模块来结合全局特征和局部特征。该模块利用全局特征来提供图像的整体视觉效果,接着利用局部特征来恢复图像的局部细节,以进一步改善图像
学位
不连续系统因其具有强大的实际背景和应用前景,近年来受到了广泛的关注。切换系统、脉冲动力系统都是典型的不连续系统。它们在物理、生物、经济等各个领域都十分常见,且贴近现实模型,因此对其展开一定的研究是有意义的。本文在现有的不连续系统的研究基础上对这些系统的稳定性问题进行讨论,主要工作包括以下几个部分:首先,简单地讲述了切换系统的一些研究现状,具体包括对切换系统按照不同标准进行分类、从稳定性的三个问题着
学位
高维线性回归模型的桥估计具有许多良好的性质,如Oracle性、稀疏性和无偏性.然而,基于正态的尺度混合先验的贝叶斯正则化方法中,控制惩罚函数形状的凹度参数的全条件后验分布不仅不是常见的分布,且该分布的密度中含有无解析表达式的规范化因子.现有的解决方法是利用数值方法近似计算出该因子的值,这导致相应的分析方法是近似的或耗时的.本文建议利用交换算法从凹度参数的全条件后验中抽样,以避免频繁计算该因子的值,
学位
冰冻海水是一个多相系统,因此其导电机理复杂,金属在冰冻海水中的腐蚀行为尚不明朗。本论文针对冰冻海水的导电性以及其中的金属腐蚀两个方面展开研究,为海洋平台和破冰船在冰冻海水中的防腐蚀提供相应的参考。本论文采用冰冻3.5 wt.%NaCl溶液模拟海冰,系统研究了冰冻3.5 wt.%NaCl溶液的导电性、影响因素以及锌在其中的腐蚀行为和机理,主要结论总结如下:冰冻NaCl溶液中存在三种导电路径:盐水导电
学位