论文部分内容阅读
伴随着大数据时代的兴起,数据已成为驱动经济发展的新能源。如何从海量的数据中准确地检索到用户需求的数据,并从中挖掘出有价值的信息,已成为当下信息检索领域的研究热点。
目前,自然语言处理领域广泛使用词向量作为神经网络模型的输入。实验证明:相对于词袋模型,使用词向量能显著提升模型性能。但是传统词向量无法有效地对上下文进行建模,难以解决词的歧义性问题。2018年谷歌发布预训练语言模型BERT,通过编码上下文语义来消除词的歧义性。因为BERT在众多自然语言处理任务中的优异表现,所以本文我们将对如何利用BERT改进信息检索模型展开系统性研究,主要工作包括以下两个方面:
第一,运用BERT构建基于表示学习的神经排序模型。我们首先利用BERT分别编码查询和文档的上下文相关的词向量表示,然后将其输入由Transformer构建的神经排序模型并得到文档和查询的相关性得分。我们将该模型称作为基于注意力机制编码的神经排序模型ATER。我们在经典的信息检索数据集Robust04和MQ2007上进行了实验。实验结果证明:基于BERT词向量的神经排序模型在P@20和NDCG@20两个评价指标上的表现均优于传统信息检索模型,进一步证明了基于上下文相关词向量的模型能构建更加精确的文档语义表示。
第二,运用BERT构建基于交互学习的神经排序模型。借鉴Yang W等人的思路:我们首先利用BERT捕获查询和文档段落间的匹配模式,然后输入一个线性分类层得到文档和查询的相关性得分。我们在Robust04和MQ2007数据集上进行了大量实验。实验结果证明:相对于传统检索模型BM25和基于表示学习的神经排序模型ATER,基于微调的BERT神经排序模型检索性能更为优秀,进一步验证了基于交互学习的神经排序模型能更加准确地捕获查询和文档间的匹配模式。
目前,自然语言处理领域广泛使用词向量作为神经网络模型的输入。实验证明:相对于词袋模型,使用词向量能显著提升模型性能。但是传统词向量无法有效地对上下文进行建模,难以解决词的歧义性问题。2018年谷歌发布预训练语言模型BERT,通过编码上下文语义来消除词的歧义性。因为BERT在众多自然语言处理任务中的优异表现,所以本文我们将对如何利用BERT改进信息检索模型展开系统性研究,主要工作包括以下两个方面:
第一,运用BERT构建基于表示学习的神经排序模型。我们首先利用BERT分别编码查询和文档的上下文相关的词向量表示,然后将其输入由Transformer构建的神经排序模型并得到文档和查询的相关性得分。我们将该模型称作为基于注意力机制编码的神经排序模型ATER。我们在经典的信息检索数据集Robust04和MQ2007上进行了实验。实验结果证明:基于BERT词向量的神经排序模型在P@20和NDCG@20两个评价指标上的表现均优于传统信息检索模型,进一步证明了基于上下文相关词向量的模型能构建更加精确的文档语义表示。
第二,运用BERT构建基于交互学习的神经排序模型。借鉴Yang W等人的思路:我们首先利用BERT捕获查询和文档段落间的匹配模式,然后输入一个线性分类层得到文档和查询的相关性得分。我们在Robust04和MQ2007数据集上进行了大量实验。实验结果证明:相对于传统检索模型BM25和基于表示学习的神经排序模型ATER,基于微调的BERT神经排序模型检索性能更为优秀,进一步验证了基于交互学习的神经排序模型能更加准确地捕获查询和文档间的匹配模式。