基于BERT的神经排序模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:siyuezaici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据时代的兴起,数据已成为驱动经济发展的新能源。如何从海量的数据中准确地检索到用户需求的数据,并从中挖掘出有价值的信息,已成为当下信息检索领域的研究热点。
  目前,自然语言处理领域广泛使用词向量作为神经网络模型的输入。实验证明:相对于词袋模型,使用词向量能显著提升模型性能。但是传统词向量无法有效地对上下文进行建模,难以解决词的歧义性问题。2018年谷歌发布预训练语言模型BERT,通过编码上下文语义来消除词的歧义性。因为BERT在众多自然语言处理任务中的优异表现,所以本文我们将对如何利用BERT改进信息检索模型展开系统性研究,主要工作包括以下两个方面:
  第一,运用BERT构建基于表示学习的神经排序模型。我们首先利用BERT分别编码查询和文档的上下文相关的词向量表示,然后将其输入由Transformer构建的神经排序模型并得到文档和查询的相关性得分。我们将该模型称作为基于注意力机制编码的神经排序模型ATER。我们在经典的信息检索数据集Robust04和MQ2007上进行了实验。实验结果证明:基于BERT词向量的神经排序模型在P@20和NDCG@20两个评价指标上的表现均优于传统信息检索模型,进一步证明了基于上下文相关词向量的模型能构建更加精确的文档语义表示。
  第二,运用BERT构建基于交互学习的神经排序模型。借鉴Yang W等人的思路:我们首先利用BERT捕获查询和文档段落间的匹配模式,然后输入一个线性分类层得到文档和查询的相关性得分。我们在Robust04和MQ2007数据集上进行了大量实验。实验结果证明:相对于传统检索模型BM25和基于表示学习的神经排序模型ATER,基于微调的BERT神经排序模型检索性能更为优秀,进一步验证了基于交互学习的神经排序模型能更加准确地捕获查询和文档间的匹配模式。
其他文献
现代人由于接受了更多的唯物主义和无神论教育,在处理个体苦难时往往趋向于依靠个人的努力试图克服,向神灵求助的意识薄弱,强大的压力难免会使他们处于陷入精神深渊无法脱离的处境。史铁生根据自己残疾和疾病的生命体验及其在苦难中企图寻找解脱的愿望,从自身生命经验出发凭借宗教精神来应对深渊,以求能够超越生命中的困境。  以佛耶两种宗教情怀作为精神指导契合史铁生的生命境遇和解脱的出路,佛教在回答他怎么面对死亡的问
学位
屈原和陶渊明在中国知识分子心中一直以来代表着“仕”和“隐”两种截然不同的道路选择,但是在文学批评史中却出现了屈陶并称这一独特的现象。屈陶并称在魏晋南北朝时期初步发展,颜延之将屈视为知音,陶视为挚友,肯定了他们相通的高洁品格,是屈陶并称精神特征层面的萌芽。钟嵘通过《诗品》首先提出了屈原与陶渊明之间的直接联系,是后世认识屈陶并称的理论基础。唐代的大致趋势是,唐代初期文人对陶渊明的推崇是高于屈原的,但是
学位
墓志,是一种埋在墓穴中的石刻文字,是目前遗存最多的石刻形式。北齐墓志,是北朝石刻的特殊组成部分,在中国书法史上有其自身的特色。北齐统治的核心地区是邺城,其政治、经济、文化的发展相对稳定,邺城及其周边地区留下了数量可观的墓志。  本文以《北齐墓志书法研究》为题,以北齐时期最常见的墓志作为研究对象,试图对当前出土的北齐墓志进行整理。从北齐时期社会的政治、经济、文化背景方面入手,准确把握时代脉络,针对不
学位
肺癌是世界上最致命和最常见的癌症,每年约有13%的癌症被诊断为肺癌。肺癌分为非小细胞肺癌(NSCLC)和小细胞肺癌(SCLC),其中非小细胞肺癌(NSCLC)约占所有肺癌的80%至85%。NSCLC根据其组织学特征,可进一步分为肺腺癌、鳞状细胞癌和大细胞癌。1/3左右的NSCLC患者初诊就被诊断为晚期肺癌,基本丧失手术机会。虽然肺癌的治疗可以采用化学疗法、辐射疗法以及免疫疗法,但现有的治疗手段副作
学位
学位
学位
气液分离元件是湿法烟气脱硫系统中的重要设备之一,其分离性能的优劣直接影响脱硫吸收塔能否稳定运行。折流板气液分离元件和直流导叶式旋流板气液分离元件具有结构相对简单、分离效率高、可分离液滴粒径范围广等优点而受到关注。本文通过实验,对折流板气液分离元件、直流导叶式旋流分离元件及两级式分离元件进行了研究。重点研究不同操作参数、结构参数对折流板气液分离元件、直流导叶式旋流板气液分离元件和两级式分离元件分离效
学位
随着科技的进步与发展,无线网络中出现了大量无线终端,对网络吞吐量提出了更高要求。现有的无线网络难以应对这样的发展趋势,为此学术界和产业界提出了若干种提高网络吞吐量的无线技术,其中包括大规模天线阵列(Massive MIMO)、同时同频全双工(Co-frequency Co-time Full Duplex,CCFD)、非正交多址技术(Non-Orthogonal Multiple Access,N
真空脱气法简称VD(Vacuum Degassing,VD)法,是指精炼炉在一定条件下根据真空脱气与吹氩搅拌原理生产低碳钢的一种炉外精炼技术。VD炉精炼可用于严格控制钢水的温度,只有准确控制VD炉出工位温度,才可以对连铸环节的顺利进行提供了一个保障,从而提高钢材的质量。  为解决目前VD炉精炼系统中存在自动化程度低和冶炼过程依靠人工经验操作,从而导致终点命中率低的问题。本文以某钢厂VD炉精炼工艺过