论文部分内容阅读
智能问答(Question Answering)是自然语言处理任务中一个综合性的应用。相比较传统的搜索引擎,智能问答旨在让用户以自然语言的方式进行提问并返回给用户一个简洁的答案或候选答案集。对于大数据时代,搜索引擎通过简单的关键词匹配的检索技术逐渐无法满足用户的需求,问答系统的研究具有重要的意义和前景。一方面受益于以深度学习为代表的自然语言处理技术在多个任务上取得的优异成果,另一方面则是因为诸如Freebase、YAGO等开放领域的大规模结构化知识库的涌现,推动了知识库问答系统(KBQA)的发展。由于语言的多样性及知识库庞大的搜索空间,问答系统需要对问句进行深度的语义理解,目前,即便是简单的开放域知识问答,现在的系统也不能很好地处理。本文工作的目的即致力于解决这类知识问答中的语义匹配问题,从而提升系统性能。基于知识库的问答系统通常需要先对问句进行语义解析,再对解析后的语义表示进行知识库查询和推理。根据中间语义表示的不同,问答方法可以分为基于传统的符号表示和基于分布式向量的表示两条路线。基于符号表示的方法会带来语义鸿沟的问题,并且依赖于高质量标注数据,很难拓展到开放领域的知识问答,故本文的研究重点是在分布式向量的语义表示下,对问句和知识库中的知识进行更好地建模和相似性匹配,主要工作如下:1.充分调研知识库问答系统的基本方法和思路,搭建了完整的神经网络问答基线系统。本文分析了近十年来知识库问答系统从基于传统符号的语义解析方法到基于分布式向量的表示学习方法的演变,并依托于Freebase搭建了一个开放域的神经网络问答系统,以作为本文后续研究的基线系统;2.从学习更好的关系表示和更好的匹配策略出发,探索了提升关系识别子任务性能的一些方法。在关系表示上,本文首次提出对关系结构的重要性进行建模,并学习不同层次的关系表示。在匹配策略上,本文使用了改进的并列式匹配模型和注意力增强的交互式匹配模型。实验显示,本文提出的方法在公开数据集上性能接近了现有最好水平;3.为了支撑后续关于智能问答系统的研究,本文构建了一个基于Web的简单知识问答系统。主要提供知识问答、实体词识别、实体预测、关系意图识别等功能。该系统可以很好地识别出简单问句的实体和关系意图,对于用户的问题同时给出候选答案集和相关证据。本文的相关数据和代码公开在http://github.com/geofftong/NJU_KBQA。