基于预训练模型的长文本排序方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hzn_arm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和普及,网络信息资源呈指数级增长。信息检索技术能够从海量文本中获取和用户需求相关的文本集,是构建搜索引擎等互联网应用的基石。文本排序是信息检索研究中的核心问题。近年来,基于预训练模型的文本排序方法取得了里程碑式的突破,成为目前信息检索领域的研究热点。然而,将预训练模型应用于长文本排序时存在以下两个方面的问题:(1)缺乏对比分析实验,不同类型的预训练模型编码器对长文本排序性能的影响尚不可知;(2)现有的方法都是基于交互的架构,在检索阶段的时间复杂度较高。针对这些问题,本文对面向长文本的预训练模型排序方法进行了系统性的研究。本文的研究内容主要包括以下几个方面:第一,对比分析了两类主要的长文本排序方法的性能。已有的长文本排序方法主要包括基于文档拆分的方法(S-Rank)和基于长文本预训练模型的方法(L-Rank)两类。现有的研究工作缺乏对预训练模型在长文本排序上的检索精度和运行性能的对比分析实验。S-Rank方法首先将文档拆分为段落,然后利用BERT等预训练模型对查询和段落进行编码,最后将编码信息进行聚合并计算文档得分。L-Rank方法使用Longformer等长文本预训练模型对查询和文档进行编码,并根据编码信息计算文档得分。本文在Robust04数据集上进行了对比实验,实验结果表明S-Rank方法优于L-Rank方法,并且基于ALBERT的方法优于基于其他预训练模型的方法。该研究为同领域的研究者们提供了一个重要的参考依据。第二,提出了一种基于表示的长文本排序方法(B-Rank)。虽然S-Rank和L-Rank都可以有效处理长文本,但是它们都是基于交互的架构,在检索阶段的时间复杂度较高,只能应用在信息检索中的重排阶段。本文在预训练模型的框架下构建了基于表示的长文本排序方法,通过预先计算文档的语义向量并存储为索引,实现了高效的检索。B-Rank首先把文档切分成固定长度的段落集合,然后使用BERT模型分别获取查询和段落的表示,最后通过聚合段落表示和聚合段落分数两种策略计算文档的得分。本文在Robust04数据集上进行了实验。实验结果表明:B-Rank可以达到和S-Rank、L-Rank相近的检索精度,同时在检索效率上快了将近两个数量级。B-Rank既可以应用在信息检索中的重排阶段,也可以应用在初次检索阶段。
其他文献
复句是汉语的重要组成部分,复句中的关系词能够起到连接分句、显示或者隐式地标记分句间的语义和层次关系的作用。关系词在很多时候不是单独使用,而是以搭配的方式使用,即有多个关系词同时出现在不同的分句中。为了能够更好地掌握关系词在汉语中的使用情况,需要对关系词的特征开展更加深入的研究。特征隐藏于海量数据之下,所以研究关系词特征的前提是拥有一个包含海量复句的语料库,本文使用爬虫爬取了最近一年内《人民日报》、
学位
目前在建的兰州重离子加速器CSR外靶实验低温高密核物质测量谱仪(CEE)将是我国自主研制的首台运行于GeV能区的大型核物理实验装置,该装置旨在瞄准低温高密环境下核物质相结构等问题,开展高能物理领域的前沿科学研究。束流定位探测器作为CEE系统的重要组成部分,通过测量入射粒子的位置信息和时间信息,为其它径迹探测器提供更精确的初始顶点,以更好地实现径迹重建及粒子鉴别。CEE测量的束流流强高,要求束流定位
学位
创建于改革开放中的黄河科技学院,作为全国第一所民办本科普通高校,从诞生之日起就充满创新的基因。学校定位本科学历教育与职业技能培养相结合,培养高素质应用型本科人才,2018年招收首届运动康复本科专业,以产教融合育人为导向,采用“2+1+1”的人才培养模式,通过4年的培养,首届学生毕业,无论升学和就业都体现了较高的人才培养质量,走出了一条产教融合培养运动康复专业人才的特色之路。
期刊
语法纠错技术在自然语言处理领域具有重要的研究意义和应用价值。近年来,随着深度学习技术不断发展,许多自然语言处理任务性能得到了极大的提高,语法纠错研究也借助神经网络架构的改进和硬件计算能力的提高取得了进步。但在深度学习技术中,神经网络模型需要较大规模数据以抽取出泛化性能足够强的特征,导致语法纠错模型在稀疏数据集上表现不佳。数据稀疏会导致模型产生诸多问题:1)模型难以抽取具有足够泛化性质的错误文本特征
学位
报纸
以2012—2021年山东省颁布的87项人才政策为研究样本,采用政策年度、政策类型、颁布主体和文种类型4个维度分析框架,对山东省人才政策进行文本分析。研究结果表明,山东省人才政策取得了既有数量支撑又有质量保障、既类型丰富又重点突出、颁布主体既广泛又协同的成绩,但是仍然存在类型结构不尽合理、颁布主体较多、青年人才政策顶层设计不足的问题。因此,今后山东省人才政策的制定应当相应做好平衡政策文种类型数量、
期刊
报纸
图的代数性质能很好的揭示图的结构性质,图的距离矩阵及其逆矩阵都能深入反映图的代数性质,进而有效揭示图中隐含的内部结构.因而,距离矩阵及其逆矩阵的研究越来越受到人们的关注,值得对其开展深入研究.在前人工作基础上,本文主要是给出了两类图的距离矩阵的逆,并研究了逆矩阵表达式中所包含的拟Laplacian矩阵(Laplacian-like matrix)的性质.本文主要内容分为五章,具体如下:·第一章主要
学位
当前,数学教育已然发生深刻变革,教师单一的传统讲授无法满足学生、家长和社会的需求,社会大环境需要教师摒弃传统观念的单纯模仿训练,要将眼光向注重方法、注重过程、注重素养、注重个体经验的方向进行转变。在构建数学学科的知识体系中,逻辑推理能力是数学思维能力的强有力的支撑;在数学交流中,逻辑推理能力可以帮助学生形成条理清晰的表达思路,有理有据地论证;在复杂的数学情境中,逻辑推理能力可以帮助学生探寻事物发展
学位
一直以来,“难学”是立体几何的一大标签.当前的立体几何教学面临“整体教学要求降低、教学效果却更不理想”,“学生几何概念认识不足、几何定理理解不清、理性认识不够、逻辑推理能力不足”等困境.这与现行立体几何教材降低逻辑推理要求而依赖直观感知的基本理念及不尽如人意的内容组织方式有关,其直接影响了教师的教学和学生的学习.基于此,本文对立体几何进行内容重建.首先,对教材中的建构方案进行思辨分析,选取试验本、
学位