基于BERT的融合辅助信息的两阶段长文档检索模型

来源 :汕头大学 | 被引量 : 0次 | 上传用户:nelly45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会经济的快速发展和科学技术的进步,生产生活中每日产生的数据量逐渐超出了已有工具可以处理的规模。如何从海量的可用数据中提取到有价值的信息,以及如何为用户的查询提供更为匹配的答案,成为了信息检索领域一个亟需优化的热点问题。虽然,对于同一查询和文档对的描述多种多样,但若想找到更匹配的答案,核心在于如何更好的理解查询和文档所表达的含义。从深度学习的角度来说,即如何将它们表示为更富含意义的向量形式。已有的相关实践证明,词嵌入向量相比于传统的词袋模型可以提供更加丰富的信息。然而,传统的word2vec、fasttext等词向量模型无法解决根本性存在的一词多义问题,基于卷积神经网络和循环神经网络的模型又无法有效的对长距离的上下文进行建模。2018年之后,以BERT为代表的众多基于Transformer的预训练模型通过在大规模的语料库上执行多种预训练任务进行语言建模,由此得到的语言模型有效的解决了前面提到的问题,为信息检索和自然语言处理领域中的诸多问题打开了一扇新的大门。但是,由于预训练模型对于输入长度的限制,相关模型在处理长文档时稍显乏力。如何在算力和推断时间的限制下,更好将BERT应用于信息检索领域中针对于长文档的检索任务,本文提出了一种为长文档构建相对重要性标签的方法,以及重要性段落识别模型IPRM和文档重排序模型Lt BERT构成的两阶段检索模型。首先,利用选择的重要性度量方式标注长文档划分后的段落,从而生成长度合适的数据集。接着,IPRM根据生成的数据集训练得到的模型,可以关注到未知长文档中相对更加重要的段落。另外,通过修改IPRM的输入形式,使其可以更好的感知标题和段落词项之间的位置关联。最后,Lt BERT相比于单纯的BERT可以更好的利用词向量信息,使得模型在文档重排序任务中的效果得到一定程度的提升。实验部分将分别在Robust-04和Clueweb-09数据集上进行,由MAP、n DCG@20和P@20评价指标的结果证明了整体思路的合理性和模型的有效性。
其他文献
研究目的:本文通过对先秦与古希腊时期体育教育的对比找出双方的异同点,总结出先秦与古希腊时期体育教育发展的实质性要义。同时借鉴历史的经验,从我国当代体育教育发展的需求出发提供一些借鉴性的建议,为我国当前体育教育更好的发展尽微薄之力。研究方法:本文运用文献资料法、历史分析法和对比研究法,基于先秦官学教育和古希腊公民教育的视角,首先对影响先秦与古希腊时期体育教育形成的社会背景做出了简要的阐述,其次梳理了
会议
建立可靠稳定且能够反映地下真实构造形态的初始模型是进行地震反演的必要前提,本文在考虑断层影响的基础上,提出一种新的基于地质构造导向的建模方法。利用平面波解构滤波器从叠后地震剖面中提取局部倾角属性,可以沿层位方向对井间插值建模进行横向约束,但该方法受限于断层等不连续地质构造。为准确描述该类复杂构造特征,引入不连续性属性,结合地震倾角信息将水平距离扩展至地质距离,并通过径向基函数计算每口井的插值权重,
《刑法修正案(十一)》加大了对证券欺诈发行的打击力度,在司法实践中要合理掌握相关的构成要件要素。应将证券市场诚信机制(金融信用)作为欺诈发行证券罪的保护法益。对于存托凭证、国务院依法认定的其他证券的认定,应当依据相关的法律规范进行判断,避免该罪范围的不当扩大。"发行文件"应限定在发行人具有可操作性的自身准备、决定证券能否成功发行的相关文件,欺诈的内容仅限于"发行文件"中的"重要事实"和"重大内容"
10月13日,中国社会福利基金会福万家基金携手相关专家以及爱心机构共同助力儿童青少年健康成长成才的公益性项目"强身健体文武双星"——健康助学工程捐赠仪式暨"五好小伙伴快乐动起来"北京市海淀区第四实验小学全员运动会胜利召开。
近年来,就业问题是亟需解决的社会难题,随着网络技术的快速发展,网络招聘成本低,人力资源招聘逐渐网络化。企业招聘人员需要花费大量的时间和精力从海量的简历中筛选合适的人才。面对不同的岗位需求,招聘人员不仅需要判断求职者的学历等信息是否符合招聘要求,而且需要分析求职者的工作经历和职业技能是否符合职位的要求和描述,非常的费时费力。因此本文提出了一种个性化简历推荐方案,来降低筛选的难度,提高筛选效率。关键思
近十年来,基于光纤的气体折射率传感器和温度传感器的研发一直是学术界和产业界的热点研究课题。本论文基于马赫-曾德(M-Z)干涉传感理论,提出了三种新型光纤传感器结构,分别用于气体折射率和温度的检测。首先本文提出了一种用于精确检测气体样品折射率变化的毛细管型光纤传感器。毛细管的空气芯(纤芯)和管壁(包层)分别构成了M-Z干涉仪的传感臂和参考臂。相干光被耦合进入纤芯和包层后会激发其中导模,在输出端两个臂
平面波成像是医学影像技术中一种快速超声成像的方法,采用单平面波发射,无需聚焦,允许高帧频。但与聚焦波超声成像相比,使用单个平面波成像的质量会受到严重影响。传统的自适应波束形成器从多个传感器元件获取的回波轨迹中估计变迹权重来提高成像质量。在本文中,采用基于神经网络的平面波成像方法来获取更好的图像质量。提出的方法在公开的PICMUS数据集上进行了模拟、真实体膜和体内颈动脉实验。本文的贡献和成果如下:1
相位敏感光时域反射计(Phase-sensitive Optical Time Domain Reflectometer,Φ-OTDR)是一种典型的分布式光纤传感系统,可以检测到外部振动的发生,很多研究多关注于系统的定位精度以及灵敏度,缺乏对多个事件尤其是相似事件进行分类的能力,使得在很多领域的应用不能进一步扩展。通过人为的对时域或频域的扰动信号进行特征提取来进行分类是比较普遍的方法,但人为的提取
心血管疾病是最为常见、致死率高的疾病,并且随着我国老龄化人口比例的升高,心血管疾病的发病率也逐年提升,早期诊断对疾病预防至为重要。在完成左心室的心肌壁准确分割的基础上,获得心肌组织应变、应变率等指标,对进行心脏机能评估与分析是非常重要的。临床上多采用手动分割的方法,耗时长且过程乏味,分割结果也容易受到主观因素影响。因此对于超声心动图的自动分割成为该领域研究的重点。针对低对比度、高噪声的超声心动图像
重载工业机器人能代替人工在高危恶劣的环境下进行重载作业,具有负载大、工作效率高、稳定性好等优势。针对于广泛应用的重载工业机器人而言,如何保障工作性能是该领域的研究热点之一。本文以提高重载工业机器人的性能为目标,开展重载工业机器人概念设计、运动学与动力学分析、性能指标分析、轨迹规划等方面的研究,论文的主要工作内容与研究成果如下:针对各个工程领域对高性能重载工业机器人的应用需求,考虑机器人本体自重、负