论文部分内容阅读
随着互联网的高速发展以及智能手机的快速普及,数据资源呈爆炸性增长,如何在海量数据中找到自己需要的有用信息成为用户关心的问题。传统的搜索引擎基于关键词匹配技术将相关的网页返回给用户,然而,该检索技术一方面只是基于语言的浅层匹配忽略了深层的语义信息,未能理解用户的真正意图,另一方面返回的页面列表包含信息众多还需要用户进一步筛选,耗时耗力。为解决该问题,智能知识问答系统被提出,旨在利用信息检索、知识图谱和阅读理解等技术来直接回答用户的问题。近年来,由于GPU带来的运算能力的大幅度提高以及数据量的增大,深度学习在语音、图像和自然语言处理领域均有了出色的表现。本文提出了端到端的事实型实体知识智能问答框架,基于用户问题采取检索技术搜索到相关的文本段落,并利用神经网络技术在检索到的文档中抽取出事实型答案。同时,为提升自动问答的性能,我们提出了注意力池化机制和引入额外知识的优化机制。论文的主要工作如下:1)实现了端到端的事实型知识智能问答框架。包括信息检索和答案抽取模块,并比较了检索模块中的多种相似度评分机制。基于相似度计算的检索模型能够减少答案句子候选集的规模,获取的候选文本不仅为后续的抽取模型提供数据来源,其较小的候选规模还可提高抽取的准确率,减少时间损耗等,是后续答案抽取模型的基础。2)提出了基于注意力池化机制的答案抽取优化模型。答案抽取过程可建模为阅读理解任务,因此,我们在通用阅读理解框架的基础上,提出了注意力池化机制优化算法,引入了全局和局部注意力,提升了答案抽取的准确性。3)提出了基于两层注意力模型的额外知识引入机制,能将额外知识引入到通用阅读理解框架中。