基于强化学习的POI对话推荐方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ysgmxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的飞速发展以及大数据时代的来临,用户通过终端能获得的信息量爆炸式增长,产生了“信息过载”。为了从海量信息中挖掘到用户感兴趣的信息,推荐系统应运而生。其中,POI(Point of Interest)推荐是推荐系统中的重要场景。POI推荐旨在根据用户的历史交互序列,学习出更准确的用户兴趣表示,以便于向户推荐感兴趣的景点。但在现实生活中,历史交互序列无法反映出用户的当前动态偏好。而对话推荐可以通过对话收集用户动态偏好,能在一定程度上缓解此问题。由于强化学习通过模拟学习过程中的奖惩机制,能够做出更有长远收益的决策,可以更好地解决序列决策问题。目前很多工作将强化学习应用到对话推荐中,通过强化学习训练高效的对话策略,从而更快地获得用户的当前偏好信息,帮助做出更好的推荐。本文致力于研究如何通过合适的方式将用户历史交互序列融入对话推荐模型中,围绕时空信息与用户多兴趣信息展开探索,通过强化学习训练出高效的对话策略,实现更好的POI对话推荐。本文主要工作如下:(1)分析了当下POI推荐与对话推荐的研究背景和意义,及国内外研究现状,之后介绍了相关概念与深度强化学习等技术。(2)为了解决传统POI推荐方法无法获得用户动态偏好且现有对话推荐方法未考虑时空信息的问题,本文提出基于时空PG策略的POI对话推荐方法。该方法使用自注意力网络学习融合时空信息的嵌入表示。基于嵌入表示和用户交互序列设计融合时空信息的对话状态,通过强化学习中的策略梯度算法(Policy Gradient,简称PG)学习考虑时空信息的对话策略,基于强化学习的对话策略根据融合时空信息的对话状态选择对话动作,通过提问或推荐获得用户动态偏好,帮助进行准确的POI推荐。最后在两个真实数据集上进行实验,验证了模型的有效性。(3)对于POI对话推荐中的用户兴趣多样化问题,本文提出基于多兴趣与节点级AC策略的POI对话推荐方法。该方法通过图路径推理的方式进行对话推荐,基于自注意力网络和门控循环单元学习当前对话的用户偏好属性集合中的属性嵌入表示所表示的多个用户兴趣表示及其权重。将兴趣表示的加权平均输入强化学习中的Actor-Critic网络(简称AC网络)学习考虑用户多兴趣信息的细粒度对话策略。基于强化学习的细粒度对话策略根据兴趣表示的加权平均计算代表每个候选动作的图节点的执行概率,根据概率进行路径推理。从而进行更高效的对话与更准确的POI推荐。最后在两个真实数据集上进行实验,验证了模型的有效性。(4)为了学习用户、POI及属性之间的复杂关系并缓解兴趣表示中的噪声干扰,本文提出基于时空图卷积兴趣与权重去噪AC策略的POI对话推荐方法。该方法基于图卷积网络强大的表示能力获得融合时空信息的图嵌入表示,然后通过自注意力网络与门控循环单元获得多个融合时空信息的用户兴趣表示及其权重。仅将权重Top-k的时空兴趣表示输入强化学习中的Actor-Critic网络(简称AC网络)以去除低权重部分噪声,不同的时空兴趣表示输入不同的Actor-Critic网络中学习时空兴趣表示条件下候选动作的执行概率,对多个Actor-Critic网络进行强化学习训练,每次选择Top-k的时空兴趣表示条件下概率最大的动作进行对话。通过使用信息更丰富的图嵌入表示以及对时空兴趣表示的去噪获得更好的POI对话推荐效果。最后在两个真实数据集上进行实验,验证了模型的有效性。
其他文献
文字作为一种记录语言的符号系统,古往今来,其不仅作为人类信息传递的重要工具,同时也是人类文明传承的载体,更是人类从原始过渡到文明的重要标志。在艺术领域,文字作为装饰图案广泛出现于建筑、服装等艺术设计当中,特别是在我国服装发展史中,文字作为古代皇家宫廷服饰中的重要装饰图案元素的发展历史极为悠久,并逐渐在发展的过程中形成了以本民族文字为代表的文字符号图案系统,其背后所承载的历史文化价值也使得文字的符号
学位
模仿学习是一种不依赖环境奖赏信息,从专家样本中学习最优策略的方法。生成对抗模仿学习结合模仿学习的决策能力与生成对抗网络的表征能力,在高维连续控制任务中展现了强大的智能性和良好的普适性,已经成为模仿学习领域的研究热点之一。然而,生成对抗模仿学习在模态表征能力、算法稳定性以及样本利用率方面存缺陷,严重限制了其在复杂现实任务中的应用。针对以上生成对抗模仿学习在对抗训练过程中出现的三个问题,本文提出了解决
学位
情绪分析作为情感分析的一个重要分支,因其广泛的应用而成为自然语言处理的研究热点。随着互联网的飞速发展,越来越多的人喜欢在以微博、推特为首的社交媒体平台上宣泄情绪,因此微博存在海量的情绪表达文本。目前,相对于英文情绪分析数据集,中文的情绪分析数据集较少。挖掘微博数据,构建高质量情绪分析数据集,对研究情绪分析具有十分重要的意义。然而,微博和推特存在文本短小、信息表达有限的问题,过去大多方法只考虑文本语
学位
近年来,文本和图像的细粒度语义匹配研究吸引了工业界和学术界研究人员越来越多的关注。文本和图像的细粒度对齐信息(例如:对齐图片中的目标对象与文本中涉及的短语实体)可以被广泛应用于很多重要的应用场景,例如:多模态检索、多模态情感分析、个性化推荐系统和线下门店数字化等。传统的文本图像细粒度匹配任务,旨在对齐图片和文本中的细粒度实体,并未就这些细粒度实体进行深入语义分析。本文通过语料分析发现,大多数用于描
学位
目的 探讨手法松解联合核心肌群训练治疗神经根型颈椎病的疗效及对血液流变学的影响。方法 选择2018年3月至2021年2月南京市高淳中医院收治的86例神经根型颈椎病患者为研究对象,按照数字表法随机分为对照组和联合组各43例。对照组采用核心肌群训练,联合组采用手法松解联合核心肌群训练,2组均持续干预4周。对比2组临床疗效及干预前、干预4周后颈椎病临床评价量表(CASCS)、视觉模拟评分法(VAS)评分
期刊
将深度学习与强化学习结合已经成为了一种主流趋势,但将其运用到现实环境还面临许多的挑战,仍需要大量的训练数据、高维度的观测空间以及精确的智能体输出端口,这些都需要更强大的探索算法,探索性的缺失将导致算法在多峰值函数的更新中陷入局部最优;然而过度的探索也会导致算法性能的下降,使算法的收敛速度下降。因此,如何平衡探索与利用的关系,加快算法的收敛速度,成为了强化学习算法的一个挑战。为了缓解上述问题,本文主
学位
2018年11月5日,科创板设立并试点注册制,国家设立科创板目的是给企业创新营造一个良好的资本市场环境,进而提升国家整体实力。科创板上市企业大部分是硬科技企业,具有的普遍特征是研发支出多。由于研发活动具有较高的资金风险,所以要准备充足的自由现金流规避资金风险。充足的自由现金流是企业进行研发支出,开展研发活动的驱动因素,研发支出的增加利于企业提高自身的创新能力,创新能力的提高可以有效促进企业实现可持
学位
最近,人机对话系统因其巨大的学术价值和商业价值而受到越来越多的关注。随着社交媒体和深度学习技术的迅猛发展,聊天机器人在生活中发挥着广泛的作用,它不仅可以满足人们的沟通需求,而且节省了企业的服务成本。为了更符合实际应用,人们往往研究多轮对话生成系统,这样可以利用更多的历史对话信息,同时也对如何更好地捕捉符合对话场景的特征提出了新的挑战。为了更好地对上下文信息进行建模,在多轮对话生成中,需要针对对话约
学位
互联网自问世以来,引发了席卷全球的信息化潮流,并逐步将第三次科技革命推向高潮,对人类生活的方方面面发起了颠覆性的改变。在此浪潮之中,诸多互联网企业迅速成长,研发出新颖的盈利模式、商业模式和先进技术,普遍具备高成长、高风险的特征。近年来,针对这一类企业的估值问题逐渐成为业界关注的焦点。但是这些企业收益的不确定性、市场数据和历史估值数据匮乏,直接导致了盲目套用传统估值方法往往造成结果上的巨大偏差,也使
学位
在我国,民歌是不同民族、地域、时代风土人情和人文精神的一种展示。作为传承地方音乐文化的载体,民歌是音乐鉴赏教学中不可或缺的一部分。在2017版《普通高中音乐课程标准》中明确了“弘扬民族音乐”的基本理念,音乐教育者开始密切关注音乐学科核心素养。其中引导学生通过音乐感知和艺术表现等途径,理解不同文化语境中音乐艺术的人文内涵是高中音乐鉴赏教学中的重要目标。在民歌鉴赏课中,从文化理解的视域引导学生理解民歌
学位