论文部分内容阅读
本课题主要研究阅读理解技术在开放域问答系统中的应用,并设计了结合检索系统和阅读理解技术的问答系统,期望通过这种模式推动阅读理解技术的应用落地。开放域是指提问内容是不限定领域的。阅读理解技术是近几年来新兴的一种答案抽取技术,通过预测答案开始和结束位置来定位精确答案。本课题选择Du Reader作为实验数据,因为Du Reader中的问题是从搜索引擎真实的用户搜索记录中整理出来的,相比刻意标注的问题数据,这种问题能够真实客观的反映问答系统的需求,实验结果也能够更真实地反映实际应用效果。本课题的研究内容主要有以下几个方面,首先,本课题设计了面向多篇章的阅读理解模型。所谓多篇章指的是每个问题对应的候选篇章不止一个,而目前大多数阅读理解任务都是围绕单篇章展开的。多篇章能够显著提高答案的召回率,提高了检索系统的容错率。为了解决多篇章阅读理解任务,本课题基于当前单篇章阅读理解的模型,做了面向多篇章的改进。其次,我们发现模型定位答案篇章,对于模型定位答案具有至关重要的意义,而简单地将模型设计为先定位篇章,再定位答案的模式又容易造成误差累计。于是我们通过为模型增加一个篇章排序子任务,训练时采用多任务学习的方法,使模型底层同时具备定位答案篇章和抽取答案片段的能力,提高了模型性能。然后,本课题研究了阅读理解模型从开放域到特定域的迁移工作。和许多基于深度学习的模型一样,阅读理解模型也会存在特定领域数据不足的问题,为了解决该问题,本课题设计了两个迁移学习方案,一种是典型的固定模型并使用预训练和微调方式的迁移学习,另一种是结合了对抗学习的迁移学习。对抗学习的应用是为了通过欺骗判别器对领域的识别,来实现知识从开放域数据到特定域数据的迁移,在提高了模型在特定于的性能的同时,缩短了训练时间代价。最后,本课题将上述成果集成到问答系统,来模拟其在实际应用场景中的效果。为了更好的评价问答系统,我们使用了人工评价的方式。另外,我们还分析了系统的效率,以及存在的问题,为未来的工作方向提供指导。