基于知识库的开放域知识问答系统研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:duyyy12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能问答(Question Answering)是自然语言处理任务中一个综合性的应用。相比较传统的搜索引擎,智能问答旨在让用户以自然语言的方式进行提问并返回给用户一个简洁的答案或候选答案集。对于大数据时代,搜索引擎通过简单的关键词匹配的检索技术逐渐无法满足用户的需求,问答系统的研究具有重要的意义和前景。一方面受益于以深度学习为代表的自然语言处理技术在多个任务上取得的优异成果,另一方面则是因为诸如Freebase、YAGO等开放领域的大规模结构化知识库的涌现,推动了知识库问答系统(KBQA)的发展。由于语言的多样性及知识库庞大的搜索空间,问答系统需要对问句进行深度的语义理解,目前,即便是简单的开放域知识问答,现在的系统也不能很好地处理。本文工作的目的即致力于解决这类知识问答中的语义匹配问题,从而提升系统性能。基于知识库的问答系统通常需要先对问句进行语义解析,再对解析后的语义表示进行知识库查询和推理。根据中间语义表示的不同,问答方法可以分为基于传统的符号表示和基于分布式向量的表示两条路线。基于符号表示的方法会带来语义鸿沟的问题,并且依赖于高质量标注数据,很难拓展到开放领域的知识问答,故本文的研究重点是在分布式向量的语义表示下,对问句和知识库中的知识进行更好地建模和相似性匹配,主要工作如下:1.充分调研知识库问答系统的基本方法和思路,搭建了完整的神经网络问答基线系统。本文分析了近十年来知识库问答系统从基于传统符号的语义解析方法到基于分布式向量的表示学习方法的演变,并依托于Freebase搭建了一个开放域的神经网络问答系统,以作为本文后续研究的基线系统;2.从学习更好的关系表示和更好的匹配策略出发,探索了提升关系识别子任务性能的一些方法。在关系表示上,本文首次提出对关系结构的重要性进行建模,并学习不同层次的关系表示。在匹配策略上,本文使用了改进的并列式匹配模型和注意力增强的交互式匹配模型。实验显示,本文提出的方法在公开数据集上性能接近了现有最好水平;3.为了支撑后续关于智能问答系统的研究,本文构建了一个基于Web的简单知识问答系统。主要提供知识问答、实体词识别、实体预测、关系意图识别等功能。该系统可以很好地识别出简单问句的实体和关系意图,对于用户的问题同时给出候选答案集和相关证据。本文的相关数据和代码公开在http://github.com/geofftong/NJU_KBQA。
其他文献
随着半导体激光器的不断发展,人们对于大功率激光器的需求越来越紧迫。经过了几十年的发展,大功率半导体激光器已经取得了突破性的进展,输出功率和光电转换效率都得到了极大
麻花钻螺旋槽的加工历来沿用包络法,即已知沟槽轮廓,由包络方程计算砂轮廓形,它的缺点是砂轮成形面复杂且唯一。显然,该方法不适应制造业对槽形精确而多样的要求。本文探索用
随着计算机科学、传感器技术的迅速发展,室内服务机器人在人们的生活工作中占有越来越多的位置。多传感器融合导航及定位技术凭借其卓越的性能和广泛应用的场景,在许多定位技
全电AMT(电控机械式自动变速器)是在传统定轴式机械变速器(MT)基础上增加由电机驱动的离合器执行器和选换挡执行器而成的,具有成本低、结构简单、维修方便、市场潜力大等优点
随着我国高速公路建设的进一步发展,部分公路桥梁线路经不得不经过岩溶区,导致桥梁基础将会设置在岩溶顶板之上。由于岩溶地区水文地质条件十分复杂,影响因素众多,下伏溶洞的
经过改革开放40多年的发展,中国经济已成为世界第二大经济体。但伴随着经济的飞速发展,我国城市发展中存在的较为严重的资源浪费、环境污染等问题也在不断显现。习近平同志在
为缓解水资源压力,我国政府出台了大量政策来推广再生水。然而纵观各地,再生水回用只取得了部分成效,总体仍处于难以推广的状态。论文围绕着“造成再生水推广难的原因是什么?
城市地下管网探测与管网地图构建是城市发展建设过程中的重要工作。探地雷达(Ground Penetrating Radar,GPR)是一种广泛使用的地下管道探测工具。通过与GPS等传感器相连接,在
自石墨烯问世以来,得到了广泛关注。石墨烯具有优异的电化学性能,并广泛应用在电化学领域。本文利用氧化石墨烯海绵结构以及具有类石墨烯结构的碳化钛来分别修饰电极,构建电
深度学习图像处理技术是如今最受学术界、工业界关注的技术之一,对各种复杂的图像任务都有良好表现。但是一般的深度学习模型因为计算耗时长的特点,无法直接部署到嵌入式终端