论文部分内容阅读
机器阅读理解的公开数据集有许多,根据答案类型的不同可分为抽取式数据集(如SQuAD)、生成式数据集(如MS MARCO)、完形填空数据集(如CNN/Daily Mail)、多项选择数据集(如MCTest)等等。抽取式数据集的特点为其问题的答案为原文中的一个序列。针对于SQuAD提出了新的机器阅读理解模型:模型的表示层采用了XLNET语言模型生成词向量以替代了GloVe传统词向量与BERT预训练词向量。该模型的编码层采用两层双向LSTM网络对表示层输出的文本向量进行编码,提取文本的多级语义。该模型在交互层利