论文部分内容阅读
近年来,大规模开放领域的知识库如Freebase、DBpedia和Wikidata等发展迅速,基于知识库的自动问答技术已成为深度学习和自然语言处理领域的研究热点之一。知识库自动问答系统能回答用户的自然语言格式的问题,返回知识库中的答案,满足用户高效智能的搜索需求,提供自然直接的人机交互方式,具有重要的应用价值和研究意义。针对知识库简单问题问答,本文利用深度学习的方法将问句和知识库三元组表示成连续向量,计算问句和三元组的匹配度,包括候选答案生成和评分两个步骤。本文主要工作如下:问答系统根据问句主题实体从知识库中检索生成候选三元组。标注问句主题词是问答系统的第一步,影响着后续步骤的效果。以前的研究通常使用基于词、字符向量和神经网络的方法提取问句主题词,但仅使用词和字符向量无法完整表示问句的语义信息,不能区分歧义词,影响标注结果。本文提出了多级别语义表示的主题实体标注模型,通过问句词、字符嵌入和上下文表示学习问句的多级别语义信息。通过CNN网络学习的上下文的嵌入表示可以捕获到单词的上下文信息,为单词产生不同的向量表示,获得问句更完整的语义表示,也能更好地处理OOV问题。之后通过BiLSTM-CRF模型标注问句主题词。多级别语义表示的主题标注模型在中英文数据集上获得了 91.32%和96.84%准确率。知识库问答系统要求理解自然语言问句和三元组信息以对候选答案评分,仍是一个具有挑战性的问题。大多数方法通过神经网络学习问句和谓语的表示进行答案评分,也有方法学习三元组主语和谓语的语义表示分别与问句进行匹配。但这些方法没有考虑利用知识库包含额外的丰富的知识三元组与结构信息,仅仅使用一个候选三元组,同时没有将三元组视为一个整体。本文提出了基于注意力机制的知识增强的深层语义表示模型,学习问句和三元组整体的语义表示。本文使用知识图谱嵌入学习三元组主语知识表示,并与谓语的语义信息通过注意力机制融合得到三元组的整体表示,捕获三元组知识和语义信息。知识增强的语义表示模型能建模三元组和问句的语义信息,处理问句与三元组的语义鸿沟问题。本文同时也采用动态负采样策略辅助模型训练。本文在SimpleQuestions数据上达到了77.2%的准确度,在NLPCC 2016知识库问答数据集的Average F1值为81.01%,本文提出的模型能得到和其他模型具有竞争力的结果。