论文部分内容阅读
问答系统能够帮助人类快速便捷地获取自己所需的信息,在一类友好的人机交互技术,具有广泛的应用前景和巨大的应用价值。自从人工智能技术兴起以来,问答一直是研究的热点话题。近年来,随着深度学习相关技术方法在自然语言处理领域取得非常迅速的发展后,基于非结构化知识的开放域问答系统逐步成为自然语言处理领域的研究热点。人们希望计算机能够像人类一样理解自然语言,并且能够根据人们的提问,自动地从这些非结构化的知识中找出正确的答案。如何让开放域问答系统根据提问在其庞大的非结构化知识中准确检索出相关的片段,并精准定位答案是目前相关研究面临的一个挑战,同时也是亟待解决的重要问题。现有的开放域问答系统,采用检索加阅读的框架,先用传统检索方法检索出问题相关的候选段,再使用机器阅读的方法抽取出候选答案,最后从中选择出最终的预测答案。传统的检索方法利用的是单词符号的统计特征,因此在检索的过程中会引入大量的噪声,这些噪声会对最终答案的生成产生很大的消极影响。而如何根据已有的特征,准确选择出正确的答案也是问答系统面临的一个严峻的挑战。针对现有的开放域问答系统在检索非结构化知识时会产生大量噪声的问题,本文提出了用多层融合文本匹配模型(MFM)来对检索返回的候选段进行筛选。通过在不同的层次上提取并分析语义特征,然后综合起来判断候选段和问题之间的语义相关性,从而实现了对候选段的准确筛选,有效地排除了大量的噪声候选段,极大的缩小了正确答案的范围,提高了开放域问答系统整体的准确率。相比同类型的方法,MFM在对候选段筛选时明显具有更高的准确率。针对难以根据有限的特征从候选答案中准确选择出正确答案的问题,本文提出了一种面向候选答案重排序的多证据语义融合排序方法。通过利用深度学习的方法,训练一个用于给候选段打分的神经网络模型,使其在预测的过程中,不仅能够分析利用自身通过对候选段编码提取到的语义特征,还能加入机器阅读模型对候选段编码的语义特征,从而将两种语义特征综合起来给候选段打分,实现多证据语义融合的排序方法。相比于其他答案重排序的方法,多证据语义融合的方法直接利用了阅读过程中产生的隐藏语义信息,以此作为额外的证据,能够更加准确的选择出正确答案及其对应的候选段。