论文部分内容阅读
基于知识库的自动问答系统为人们提供了一种直接、高效且准确的信息获取方式。近年来,随着信息抽取、数据挖掘等相关领域的不断发展,涌现了一批规模庞大、涵盖诸多领域内容的知识库,如Freebase、DBpedia等,为基于知识库的自动问答研究提供了良好的数据基础,并带来了新的挑战。目前主流的研究方法主要分为两类:基于语义分析的方法和基于信息检索的方法。基于语义分析的方法侧重于将自然语言形式的问句转换为某种逻辑表达式,如lambda表达式等,然后根据逻辑表达式查询知识库,获取答案;基于信息检索的方法则首先通过简单的方法从知识库中获取一系列候选答案,然后抽取相关特征对这些候选答案进行排序。随着人工神经网络和深度学习技术的不断发展,越来越多的研究者开始使用端到端的神经网络模型对知识库本身、问句与候选答案等内容进行表示学习,进而获取正确的答案。在中文领域,2016年的NLPCCICCPOL KBQA评测任务上发布了一个大规模的通用知识库,并包含相关的人工标注问答数据集。在此基础上,本文研究了知识库问答系统中涉及的两个关键技术:问句中的命名实体识别和问句到知识库内属性的映射。具体内容如下:1.基于LSTM语言模型的命名实体识别。为充分利用知识库提供的信息,本文基于排序方法进行实体识别。首先根据别名词典获取问句中包含的所有命名实体作为候选,然后使用LSTM语言模型结合简单的词汇特征对候选命名实体进行打分排序。2.基于卷积神经网络的属性映射。使用暹罗结构的多层卷积神经网络对问句和候选相关属性分别进行语义编码,将其转换为相同维度的语义向量,计算两者的语义相似度,选择与问句语义相近的知识库属性。使用注意力机制发现问句与属性间存在的单词对齐现象,结合简单的词汇特征,进一步提高属性映射准确率。3.基于LSTM模型的属性映射。提出了基于LSTM模型进行属性映射的方法,并将两种不同的注意力机制融合于LSTM模型中,进一步提高准确率。在得到属性映射的结果后,利用其对命名实体的结果进行重排序。最后,综合命名实体和属性映射的结果,对候选答案进行排序,选择问题的最终答案。