论文部分内容阅读
基于知识库的对话问答是人机交互的重要途径,随着人机对话的不断发展,使计算机能准确的理解用户查询意图对整个人机对话领域都有着重要意义。本文对现有的知识库对话问答任务中最主要的两部分意图识别和基于知识库的问句表达进行了研究。意图识别的主要目标是在人机对话的过程中判断用户的意图,提升人机对话系统的准确度与自然度,本文针对用户输入问句文本特点进行研究并提出一种混合模型有效提升了系统性能。在英文数据集上研究了抽象语义建模对知识库问答的影响,通过引人抽象语义表示并建模,可以辅助系统获得额外信息并提升整体性能。在中文数据集上通过引入预训练语言模型来构建通用的知识库问答系统。本文主要工作如下:(1)基于混合神经网络的人机对话意图分类模型本文针对意图识别领域的用户语音转化、内容具有特征稀疏性问题、文本长度分布不一致问题,分析了多个分类模型在意图分类任务上的优缺点。在此基础上,本文提出了一种新型的混合神经网络模型综合利用多个深度网络模型的多样性输出。在输入特征预处理上采用语言模型词向量,将语言模型拥有的语义挖掘能力应用到混合网络中,可以进一步提升模型的表达能力。本文提出的混合神经网络模型相对于最好的基准模型在两份数据集上分别取得2.95%和3.85%性能提升。新模型在两份数据集上都取得了最优的性能。(2)基于抽象语义建模的知识库问答方法在以往的基于知识库的问句表达研究中,阶段查询图生成是一种被广泛用于获取用户输入问题表示的方法。以这种方式实现的表示方法通常含有问题序列和句法信息,但没有深层语义信息。就我们所知,以前没有使用阶段查询图生成和语义解析一起获得问题表示的工作。在本文中,我们首次提出在知识库问答系统中为问题的抽象语义表示(AMR)结构建模。AMR是一种典型的语义形式表示,它将句子的语义编码成有向的类型图。我们设计了两种不同的方法将问题的AMR图编码成稠密向量,并与查询图生成的表示一起使用。在基准数据集上的实验结果表明,与以前的研究相比,集成AMR解析信息有助于获得新的最先进的性能。(3)基于中文知识图谱的问答系统本文针对大规模中文知识库问答,搭建了一个包含命名实体识别、实体链接和属性链接的问答系统。在经过基于语言模型和BiLSTM-CRF模型组件的命名实体识别后,我们提出两种简单的策略完成实体链接,最后使用基于语言模型的语义相似度计算完成属性链接。在一个公开测试数据上,我们的系统取得良好的性能。