用户个性感知的任务型对话策略学习

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：qilinsanshao

【摘要】

：

【作者】

：

郑孟丹

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

任务型对话系统通过对话的方式协助用户完成特定领域的任务,在日常生活中有着广泛的应用。随着人机交互技术的发展,对对话系统的要求也越来越高,对话系统被要求更高效自然地与用户进行交互,提供更具针对性的服务。因此,对话系统不仅需要理解用户需求,还需要能够识别用户个性偏好,进而更高效地完成任务。个性化对话系统通过考虑用户个性信息,根据用户的偏好生成响应,提供更具针对性的个性化服务。现有的个性化对话系统相关研究更多关注于个性化推荐和个性化文本生成,利用用户个性信息以改善对话策略模型性能的相关研究还比较少。如何使对话策略选择系统下一步动作时,考虑用户个性信息,提供个性化服务,是一个亟待解决的问题。本文针对用户个性感知的任务型对话策略关键技术问题进行研究,主要工作和创新点如下:（1）针对当前基于强化学习方法的任务型对话策略没有考虑用户个性信息的问题,提出了用户个性感知的对话策略模型。在状态空间中引入用户个性表示,使用门控循环单元对对话动作历史进行建模,通过动作价值网络学习不同个性的用户在当前对话状态下的动作价值,使策略模型能够针对不同个性的用户选择合适的回复动作,进而实现更高效的对话策略。实验结果表明,所提出的策略模型能够提高对话效率和成功率,在两个任务型对话任务上均能取得更好的效果。（2）为了解决现有的对话策略学习方法受用户模拟器模拟偏差影响的问题,提出了用户个性感知的深度Dyna-Q方法,改进世界模型结构以提高世界模型的模拟性能。在世界模型中引入用户个性表示,通过对话上下文建模模块和用户目标特征提取模块从对话上下文,对话状态和用户目标中提取特征,同时使用基于KL散度的判别器对模拟经验进行评估筛选。实验结果表明,提出的方法在两个任务型对话任务上均优于对照的三种深度Dyna-Q学习方法。

其他文献

多/众核系统中的热隐蔽信道攻击与防御研究

热隐蔽信道（thermal covert channel,TCC）攻击将数据编码为温度变化,使用热传导传输隐私数据,危害性极大。由于TCC攻击不需要访问缓存、带宽等系统资源,具有极高的隐蔽性,对多/众核系统的芯片安全构成严重威胁,其危害程度与TCC传输能力相关,传输速率越高、误码率（bit error rate,BER）越低,短时间内TCC泄露的数据越多。研究TCC攻击对系统的信息安全具有重要意义

学位

基于agent的机场旅客差异化安检策略建模与仿真研究

近年来,由于我国民航业的飞速发展,乘机出行的旅客逐渐增多,也给机场旅客安检带来了压力。为实现民航安检“提质增效”的工作目标,已有部分机场开始对差异化策略旅客安检通道进行研究。为此,本文以差异化策略安检思想为基础,利用建模仿真方法对传统旅客安检通道、不同长度旅客安检通道、小件行李旅客安检通道和女性旅客安检通道进行研究。首先,本文利用AnyLogic仿真软件建立旅客agent模型,设计旅客的属性和行为

学位

基于风格迁移的安检X光训练图像仿真与评价方法研究

智能行李安检X光违禁品检测系统对提高安检效率、维护公共安全有重要意义。近年来,卷积神经网络在目标检测及图像分类任务中的应用,激起了智能安检研究领域对于高质量、大规模数据集的需求。然而,现有的安检X光图像数据集在含违禁品的样本数量和多样性方面,都难以满足进一步提升智能违禁品识别及检测模型性能的需求。为建立一个含违禁品数量充足的安检X光图像数据集,本文给出一种基于改进循环生成网络（Cycle-Cons

学位

模糊非平行支持张量机模型与算法研究

不同于求解两个平行支撑超平面的支持向量机模型,非平行支持向量机为每个类构造相应的优化问题,从而寻找一对互不平行的超平面。相关研究表明相比于传统支持向量机模型,非平行支持向量机具有更好的学习性能。在模式识别、数据挖掘和计算机视觉等领域,张量被广泛地应用于表示学习样本。然而,非平行支持向量机等向量分类模型往往不能直接将张量作为输入模式。一种常见的做法是将张量展开为高维向量,但这种做法不仅会破坏张量的内

学位

手术工具与手术流程识别算法研究

随着当代医疗技术的高歌猛进,计算机辅助外科手术己经迈入新的革命时代,正朝着智能化的方向转变。手术工具和手术流程的识别作为计算机辅助手术领域中的重要课题,对于加快手术智能化的发展具有重要意义。手术工具识别算法可以为医生提供准确、实时的手术工具运动轨迹以及位置、类别信息,增强外科医生的手眼协调,同时也能起到为医生提供风险预警的作用。手术流程识别算法能够在手术过程中为医生提供准确的手术进展报告,有助于医

学位

激光选区熔化纳米SiC颗粒增强铝基复合材料硬度、拉伸性能及强化机制研究

激光选区熔化技术（Selective Laser Melting,SLM）是增材制造技术中制造复杂形状、高性能金属零部件最有前途的工艺技术之一,已实现铝合金、钛合金、高强度钢以及高温合金等金属零部件的加工制造。铝合金拥有比强度高、耐腐蚀性好等优点,满足现代技术工程发展的需求。随着各行业对零部件的轻量化、结构功能一体化等要求的提高,SLM成形铝基复合材料吸引了研究人员的目光,但微米级颗粒对材料性能提

学位

管制员陆空通话可靠性分析关键技术研究

在民航运行系统中,人是影响飞行安全的关键因素,探究各类民航从业人员人因失效的致因机理,建立人因失效概率评价模型等工作对民航安全管理具有重要意义。在飞行过程中,管制员在陆空通话时所输出的指令是飞行决策的主要来源,研究管制员陆空通话时的人因可靠性具有重要的现实意义。管制员的人因可靠性分析（HRA）最大的难题是人因失效难以捕捉和统计,本研究针对这一问题设计陆空通话实验,提出基于CREAM-云模型的管制员

学位

管制员CFF测量及在疲劳研究中的应用

空中交通管制员疲劳问题对航空安全造成严重威胁,防范管制员疲劳在空中交通管理系统中的重要性日益凸显。空中交通管制员因为工作特性需要进行倒班工作,且工作负荷、安全压力大,因此睡眠不足、生物节律紊乱、精神压力大、脑力疲劳是导致管制员疲劳问题的重要因素,所以正确有效地测量并预测管制人员的疲劳程度,制定民航管制人员疲劳作业防范措施,建立管制员疲劳风险管控系统,对保障飞行安全具有重要意义,其中,测量管制员的疲

学位

基于联合分布对齐的深度领域自适应算法研究

迁移学习是机器学习领域中的一个研究热点。作为迁移学习的代表方法,领域自适应（Domain Adaptation,DA）的目标是利用源域和目标域的数据学习一个能在目标域上表现良好的模型。通常,目标域只有极少量甚至完全没有任何带标签的数据,而源域则有相对充足的带标签数据。领域（domain）可以看作联合分布,领域自适应的本质问题是源域和目标域的联合分布对齐问题。近年来,深度学习方法常常需要大量带标签数

学位

基于方向引导的大规模多目标优化算法研究

多目标优化问题在日常生活中随处可见,使用遗传算法的方式解决多目标优化问题已经十分常见。目前现有的大多数遗传算法虽然在决策变量数较少的多目标优化问题上得到了较为成功的应用,但在决策变量较多的大规模多目标问题优化上其性能显著下降。这主要归因于“维数灾难”,即搜索空间的体积和复杂性将随着决策变量数量线性增加而呈指数增长。为了解决上述问题,许多不同类型的大规模多目标优化算法被提出。目前,对于大规模多目标优

学位

用户个性感知的任务型对话策略学习

与本文相关的学术论文