【摘 要】
:
任务型对话系统是对话系统领域的分支之一,旨在采用自然语言的方式帮助用户完成某一特定任务,如今在个人助理、客服等方面有着广泛的应用。对话管理模块是任务型对话系统的核心,负责控制整个对话过程,帮助用户高效完成目标,是系统稳健性的重要保证。近年来以强化学习为基础并结合深度学习的深度强化学习方法充分利用深度学习与强化学习的优势,在处理序列决策问题上具有很好的效果。鉴于这一优势,本文采用深度强化学习方法针对
论文部分内容阅读
任务型对话系统是对话系统领域的分支之一,旨在采用自然语言的方式帮助用户完成某一特定任务,如今在个人助理、客服等方面有着广泛的应用。对话管理模块是任务型对话系统的核心,负责控制整个对话过程,帮助用户高效完成目标,是系统稳健性的重要保证。近年来以强化学习为基础并结合深度学习的深度强化学习方法充分利用深度学习与强化学习的优势,在处理序列决策问题上具有很好的效果。鉴于这一优势,本文采用深度强化学习方法针对对话管理展开研究,并对基于强化学习的任务型对话系统的代理和环境两方面开展了如下工作:(1)在代理方面,本文使用联合强化学习方法建模对话管理,针对经典深度确定性策略网络(Deep Deterministic Policy Gradient,DDPG)算法只能处理连续性任务,而不能解决离散型任务的问题。本文通过改进DDPG模型中策略网络输出层的结构使其适合于处理本文动作离散的对话任务。在训练过程中代理充分利用DDPG模型的优势,能够加快模型的收敛速度,找到更优的对话策略。(2)在环境方面,针对用户模拟器存在的设计缺陷,与真实用户存在很大差距,在一定程度上会对代理训练造成负面影响的问题,本文通过引入世界模型模拟环境(用户模拟器)的响应并生产模拟经验样本数据,使代理训练不完全依赖用户模拟器提供的真实经验。最后通过规划步骤将以上两种改进方法结合起来以提升代理的训练效果。本文结合以上两方面的改进提出了一种结合规划的离散DDPG模型,设计了求解算法,并以预订电影票的对话任务为例,设计并实现了一个能够预订电影票的对话系统。实验结果表明,本文所提出的算法能够帮助代理更快地找到成功的对话策略。
其他文献
获取自身位姿信息是移动机器人实现路径规划等导航功能的前提。利用传统的定位传感器在某些特殊情况下容易出现定位不准确的问题,如里程计易在不平坦地面发生打滑现象,IMU在机器人长时间做三维变速运动时易发生比较严重的漂移现象,GPS在室内环境中易出现定位不佳的现象。然而视觉传感器可以获取丰富的环境信息,不受车轮打滑等因素的限制,在一定程度上能解决特殊情况下传统定位传感器定位不准确问题。基于此,本文研究基于
喹噁啉-1,4-二氧化物是具有广谱抗菌和促生长双重功效的动物专用药物,自上个世纪70年代以来被广泛应用于养殖业。其代表品种有卡巴氧和喹乙醇,主要作为饲料添加剂用于食品动
随着社会的不断发展,近年来追求兴趣且家庭支持的艺术特长生越来越多。而湖南实行3+1+2的高考选科形式,也就意味着偏理科的艺术特长生一定要选择物理这一门学科。艺术特长生文化课拖后腿的现象屡见不鲜,而作为中学教育中常常被学生夸大难度的物理而言,处境就更为窘迫。为了更好的实践中学物理教学,同时对艺术特长生的今后发展着想,培养这一类学生的物理学习兴趣便成了一个非常重要的研究课题。本课题从艺术特长生物理学习
毫米波雷达是目前智能交通监视系统中的重要组成部分,利用毫米波雷达实现多目标车辆跟踪是智能交通领域的研究热点。针对道路上过往车辆,毫米波雷达监视系统通过目标跟踪与轨迹预测来判断车辆是否存在危险驾驶行为并发出预警信号,因此雷达监视与预警有助于减少交通事故发生。目前,有很多基于视频图像的多目标跟踪算法,但在实际的交通监视环境中这些方法适应性差,容易受到复杂环境的影响,而毫米波雷达检测精度高,抗干扰能力强
财务管理是企业的各种经济管理活动中最为关键的部分,企业的管理层需要进行一项经济决策时,他们首先会充分了解企业的经营活动情况,一般是阅读企业的财务报表等文献资料并对其进行分析评价。而对企业财务报表进行分析评价,其方法有非常多种,可它们注重的方向上又都有一定的区别。在这些方法中,以哈佛框架为基础的财务报表分析方法可以更充分和深刻的看出企业的财务报表所体现的信息,进而在企业管理层做出决策时起到辅助的作用
消纳大规模新能源是国家能源战略之一。然而,以风机为主的大规模新能源采用电力电子装置接入,改变了电力系统的结构,产生了一系列安全性问题,其中新能源大规模并网引发的振荡问题近来得到广泛关注。有鉴于此,本文研究永磁直驱同步发电机(PMSG,permanent magnet direct drive synchronous generator)在弱网下的振荡特性和振荡机理。主要工作如下:(1)利用直驱风机
随着环境问题日益突出,电动汽车保有量逐年增加。大量电动汽车的无序充电不利于电网的稳定性。同时电动汽车闲置时间较长,将处于闲置状态的电动汽车作为储能参与电力系统辅助服务可以充分发挥电动汽车动力电池的储能作用,提升电网的稳定性,同时为电网和车主带来一定的经济利益。目前多数国家已开展电动汽车虚拟储能的研究。但是,如何建立多维度的电动汽车虚拟储能可用容量预测模型、根据预测结果对电动汽车虚拟储能参与辅助服务
目的:探讨异常核型染色体在急性白血病治疗及预后评估中的意义。方法:收集于2017年06月-2019年06月在我院血液内科就诊的137例初治急性白血病患者的临床资料,回顾性分析异常核型染色体在急性白血病患者中的治疗效果及预后评估中的意义。结果:1、异常核型染色体检出率为64.23%。其中AML检出率为63.00%;ALL检出率为67.57%。AML与ALL异常核型染色体比较,差异无统计学意义(P&g
声誉风险管理自美国次贷危机后纳入了全面风险的管理范畴。国内外银行业的监管部门和商业银行的决策层逐渐意识到声誉风险管理,尤其是声誉风险评估的重要性。全面系统的声誉风险识别和科学合理的风险评估指标体系,以及定量评估模型的构建,成为银行声誉风险管理的重点和难点。对于声誉风险影响因素的识别分析成为声誉风险评估中最基础也是最重要的一个环节。因此,本文针对影响商业银行声誉风险的因素进行了探索和创新的研究,为后
针对滑坡监测系统的特点,提出并设计了一套基于ZigBee技术的监测系统。ZigBee技术是无线传感器网络技术的一种,其拥有低功耗、网络容量大、延迟短等优点,广泛应用于工业、农业等领域,并取得了良好的监测效果。传统的滑坡监测技术主要靠人力采集,无法做到实时监测,且获取数据受气候条件限制。本文通过对ZigBee网络技术的研究,致力于将ZigBee技术应用至滑坡监测,开发了从传感器数据采集端到上位机软件