论文部分内容阅读
自动问答系统能够根据用户输入的自然语言问题,直接返回精确的答案。本文的研究方向是基于非结构化文档的开放域自动问答系统,其特点是背后的数据源是非结构化的文档库,面向的问题是通用问题,并不局限于某个领域。典型的基于非结构化文档的开放域自动问答系统一般由问题处理模块、文档处理模块和答案处理模块三个部分组成,其主要存在两个问题,第一是文档处理模块返回的段落候选集规模过大导致答案处理模块准确率降低。第二是基于规则的答案抽取过于繁琐,灵活性差。针对第一个问题,本文使用句子筛选和句子排序模块将段落候选集缩减为单个的答案句子。针对第二个问题,本文使用了端到端的深度神经网络模型代替传统的基于规则的答案抽取算法。针对句子筛选模块,本文改进了一种计算文档相似度的算法Word Mover’s Distance(WMD),并提出了一种将BM25和WMD结合的混合模型。本文分别进行了文档分类和文本排序实验。实验结果表明,改进后的WMD算法和混合模型比其他基准算法有更好的效果。针对句子排序模块,本文设计了五种特征来衡量问句和候选答案句子之间的相关性,并以此相关性得分对候选答案句子进行排序。这些特征包含了不同的级别。该模型称为Multiple Level Feature Rank(MLFR)模型。本文测试并对比了若干基于深度神经网络的句子排序模型。实验结果表明,MLFR模型有更好的排序效果。最后,本文引入了一个端到端的深度神经网络模型用于答案抽取,并将此模型与前面的句子筛选和句子排序模块组合在一起,设计实验进行了整体的性能评估。本文对典型的基于非结构化文档的开放域自动问答系统中存在的问题提出了相应的解决方案,改进了计算文档相似度的相关算法,提出了一种基于多级特征的句子排序模型(MLFR),同时引入了一种端到端深度神经网络来进行答案抽取。实验结果表明,本文的解决方案是行之有效的。