论文部分内容阅读
人机对话在车载导航、智能家电以及机器客服等领域有巨大的需求,吸引了众多学者的关注。人机对话系统大致分为三类:智能问答、开放领域聊天和任务型对话系统。任务型对话系统旨在通过多轮交互,帮助用户完成具体任务,如餐馆预订和机票预订等。任务型对话系统主要包含自然语言理解、对话管理和自然语言生成等部分,其中,对话管理不仅要维护对话状态(即对话状态追踪),还要进行动作决策(即对话策略),具有关键作用。传统上,任务型对话系统各部分分别建模,近年来,将自然语言理解和对话管理以端到端的方式整体建模,以消除传统方法存在的误差累积问题。整体建模的研究已取得了不少成果,但还存在一些问题亟待解决。例如,仅有少量的工作聚焦于状态追踪的领域自适应问题;目前端到端对话管理的研究主要针对有限本体空间的情况,而真实对话任务中,经常会包含一些无限取值的槽;对话策略常采用强化学习进行训练,但是强化学习中存在的回报稀疏问题导致其收敛缓慢;强化学习所需的用户模拟器需要精心设计,费时费力。本文针对上述问题开展了一系列的研究,具体的工作内容及创新点概括如下:提出了一种基于阅读理解技术的领域自适应对话状态追踪模型,其中以槽描述为问题、对话内容为文本、槽值为答案,以端到端的方式来解决对话状态追踪的领域自适应问题。针对无限取值槽,模型通过对用户表述进行序列标注,找出槽值的位置以更新对话状态;针对有限取值槽,模型通过推断候选槽值是否隐含于对话中来更新对话状态。在SGD数据集上的实验表明,所提出的对话状态追踪模型具有领域自适应能力。提出了一种基于层级循环神经网络的对话管理模型,该模型以端到端的方式将自然语言理解与对话管理作为整体进行建模。模型底层循环神经网络进行序列标注以获取值槽;上层循环神经网络综合句子表示、历史对话状态和历史系统动作,更新当前时刻的隐式对话状态;最后,隐式状态表示通过多层感知机映射到动作空间。模型可以在获得对话决策动作的同时获得槽值。相比于已有研究,该模型能够用于槽值空间无限的对话任务;槽值的标注数据可以由用户模拟器通过词汇化模板提供,比状态追踪的标注数据更易于获取。提出了一种高回报优先经验回放算法。该算法在每次训练之前,先模拟一定数量的对话,依据结束时刻的回报函数来判断对话成功与否。在模型训练时,优先采样成功的对话序列,同时为防止模型收敛于局部最优,还补充采样一些随机的对话序列,最后,将上述两部分对话序列混合,用于模型的训练。实验表明,在回报稀疏的对话任务上,相比于已有的经验回放算法,高回报优先经验回放算法能够有效地提高强化学习的收敛速度。将对话管理模型与用户模拟器之间的交互建模为多智能体强化学习,通过二者的合作训练,联合调整对话管理模型与用户模拟器之间的交互策略,极大简化了人工设计用户模拟器的过程。为所提出的多智能体对话模型定义了基于对话动作邻接对的回报函数,采用一个对话管理同时与多个用户模拟器合作的训练方式。实验表明,基于邻接对的回报函数不仅提高了模型的收敛速度,还能缓解对话管理与用户模拟器陷入非正常对话行为的问题,从而提高了对话管理的性能。基于上述对话管理模型,设计并实现了一个中文会议室预订系统。该系统通过自然语言与用户交流,来帮助用户完成会议室的预订。