论文部分内容阅读
随着互联网的发展,越来越多的互联网用户从海量非结构化的网页中获取所需信息。然而,当前主流的搜索引擎针对用户提出的问题只能返回多个篇章级的结果,并且这些返回结果存在很多干扰信息,因此用户需要对返回的结果进行判断筛选才能真正得到所需信息。这个过程不仅增加了用户检索的难度同时也增加了用户搜索时间。因此论文研究实现了多段落阅读理解系统,可以给用户返回更加精准的答案。多段落阅读理解算法指给定问题和多个段落机器自动从给定的段落中抽取出答案。然而,多段落阅读理解算法存在文本长度过长导致阅读理解效果差、候选答案排序算法不能综合多方面文本语义信息等问题。因此,为提高多段落阅读理解算法的性能和可用性,论文研究改进了多段落阅读理解算法,并基于改进算法实现了多段落阅读理解系统。主要研究内容包括如下三个方面:(1)首先,论文实现了基于依存句法关系和注意力机制的阅读理解算法。针对长文本下传统注意力机制对所有词都计算注意力权重引起噪声干扰的问题。论文所提出的模型在Bert输出的基础上只对有依存句法关系的词组计算注意力权重,有效降低了无用信息对语义表达的误导。实验表明,论文提出的模型取得了比match-LSTM、BiDAF和Bert更好的预测效果。(2)然后,论文实现了融合文本蕴含关系特征和多种其它文本特征的候选答案排序算法。针对候选答案排序算法不能融合多方面语义信息的问题。论文所提出的模型融合了问题、文章及段落三者之间深层的语义关系。实验表明,论文提出的模型取得了比DrQA、R3、HAS-QA和RankQA更好的预测效果。(3)最后,采用VUE、Flask、JavaScript等技术设计实现了多段落阅读理解系统。系统包括五个模块,分别是web服务模块、算法模块、数据获取模块、基础支撑模块和日志存储模块。同时结合系统的功能性需求和非功能性需求对各个模块进行了详细地设计和实现。测试结果表明,多段落阅读理解系统满足系统需求并达到预期目标。