面向复杂阅读理解任务的预训练方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:chl1220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理中的一个非常重要的研究方向,机器阅读理解及问答技术在现实场景中具有极其广阔的应用,包括且不限于推荐系统、搜索引擎,以及对话机器人等。早期的方法主要依靠TF-IDF和BM25等传统信息检索技术,仅能从文档中找到相关的片段,无法做出准确的回答。随着深度学习技术的迅速发展,使用大量标注数据进行训练的,基于神经网络的方法在一系列基准测试上取得了优秀的成绩。然而,在现实场景中,数据标注通常需要大量的人力资源,某些领域甚至需要专家的协助,导致真实可用的数据往往较少,训练好的模型也容易出现因过拟合导致的泛化性下降。在这一背景下,近年来,许多研究者开始探索自监督训练,即从无标注的数据中自动化地挖掘监督信号,以对神经网络进行训练,从而免去昂贵且复杂的手工标注过程。此后,以语言建模为自监督训练目标的预训练方法,也因其强大的泛化性而逐渐成为自然语言处理领域的主流和标配。尽管如此,将自监督训练技术应用于机器阅读理解仍是一个巨大的挑战。一方面,机器阅读理解任务往往需要多种能力以适应不同的场景。例如,开放域或长文本问答场景强烈依赖模型的证据抽取能力;此外,在某些特殊领域,如法律和金融,严密的逻辑推理或多跳推理能力是模型能否辅助人类理解文档并进行分析的关键。另一方面,不同于专注于面向通用语言理解的预训练方法,如语言建模或掩码语言建模,面向任务的预训练方法需要能够针对下游任务所需要的能力,制定针对性的预训练任务,或挖掘特定的监督信号。同时,为了避免过拟合的影响,预训练任务与下游任务的训练目标也应尽可能一致。为了解决以上问题,我们提出了两种全新的面向复杂阅读理解和机器推理的自监督预训练方法,一种用于增强问答系统在长文档中的证据抽取能力,另一种则通过对比学习提高模型面对复杂场景的逻辑推理能力。对于前者,我们引入了两个依赖证据抽取的自监督任务;同时,我们在模型中增加了一个检索式的证据抽取模块,以尽可能缩小上下游任务训练目标的差异。为了对该方法进行评估,我们在5个需要跨句证据抽取和推理的数据集上进行了大量的实验,证明了我们的方法的有效性。实验结果还表明我们的方法能够在没有显式监督的情况下,显著提升模型证据抽取的准确性。对于后者,我们利用元路径概念,挖掘了无标注文本中蕴含的实体间逻辑关系,以构建用于对比学习的训练样本;同时,我们还设计了一种基于反事实数据增强的方法,来进一步消除训练数据中的信息捷径。我们在两个公开数据集上对模型进行了评估,实验证明我们的方法取得了比现有方法更高的准确率,以及对标注数据更低的依赖性。
其他文献
住房问题自古以来就是关乎人民切身利益的重大民生问题,同时也是影响国家社会发展的经济问题。住宅问题作为束缚人的自由全面发展的重大障碍也一直受到马克思恩格斯的重视。西方社会进入工业革命以后,城市化进程迅速铺展开来。当大批工人被迫从家庭手工作坊涌向城市的时候,按照资本逻辑进行布局的城市空间却将他们抛上街头。于是就出现了工人以及小手工业者的住宅短缺问题,《论住宅问题》于这一社会背景下问世。这篇经典著作以三
学位
随着生产水平的提高,人们的生活水平有了很大的提升,健康越来越受到大众的关注,人们对于及时准确的医疗诊断需求愈发的强烈。然而,中国人口基数庞大,现阶段医疗环境存在诸多问题,其中最严重的是许多医疗岗位存在巨大人员缺口,且由于区域发展差异,我国医疗资源分布极度不均衡。在人们的急切的医疗需求下,当前的医疗在线诊疗网站如雨后春笋般涌现,如春雨医生,好大夫,拇指医生等。很多的在线咨询医疗诊断对话在匿名化过后被
学位
随着网络、信息和科技地迅速发展,移动应用设备被越来越多的人使用,汉语词典类应用程序(以下称“APP”)作为重要的辅助工具,逐渐代替传统纸质词典,被越来越多的留学生选择。目前,有关APP的研究还处于初级阶段,希望本文的调查研究能反映一些问题,为相关研究提供一些思路和参考。本文共包括六个章节。第一章节是绪论,主要介绍了APP的研究背景、研究现状以及本文的研究理论和研究方法。通过对上海三所高校:上海财经
学位
在《合同法》出台以来直至《民法典》一直采用形式自由主义,规定一些类型合同必须采用书面形式,但对于具体书面形式类型、构成要件及法律后果并未明确,导致在司法实践中对合同法定书面形式的认定及法律后果存在争议。同样,在认定合同确实欠缺书面形式后,其法律效力如何,在司法实践与理论学说中历来存在争议,而最新实施的《民法典》并未将这一争议解决。本文旨在通过对国内外立法及司法案例的研究,厘清司法实践中,对于合同法
学位
饲料产业作为农业和养殖业的中间产业,发挥着不可替代的作用。我国现阶段大力发展饲料产业,进而促进畜牧养殖业高质量发展。随着饲料产业的规模化发展以及企业间竞争的加剧,饲料企业如何才能在这种行业竞争中转变经营理念,提升企业价值,让消费者“无条件”选择本企业的产品,这是摆在整个行业面前的关键问题。合理的资产结构配置能够让企业提高对资产的利用效率,实现降本增效进而提升企业价值。此外,品牌资产在企业资产配置的
学位
张静如(1933-2016),我国著名中国共产党历史研究大家、李大钊研究专家、中国共产党思想研究专家、杰出的马克思主义理论家和卓越的党史党建研究教育家。他从教60余年来,先后发表了《党史学科建设断想》、《中共党史学理论和方法论纲》等学术论文近400篇;出版了《李大钊同志革命思想的发展》、《唯物史观与中共党史学》等60余部专著和教材;培养了百余名学生和访问学者;参加了多次学术研讨会和做过百次以上学术
学位
在一定意义上说,一部改革开放史,就是一部中国共产党党员干部教育的历史。改革开放以来,中国共产党人不断完善和发展党员干部教育工作,从教育理念、教育内容、教育形式、教育方法等多个方面建立起较为系统完备的党员干部教育体系,不仅培养出一大批积极投身于改革开放事业的优秀党员干部,而且在具体历史实践进程中积累了宝贵的党员干部教育经验。厘清中国共产党党员干部教育的基本问题,这是改革开放以来中国共产党党员干部教育
学位
集合数据是一种应用广泛的数据类型,集合关系可视化将不同集合及其内在元素之间的关系直观地展现出来,为高效传达集合数据提供了许多可能,被广泛应用在地理空间数据分析、社交网络分析、信息图和新闻报道等领域。一个优秀的集合关系可视化作品应该具有准确性和美观性,即准确描述所展示的数据,保证可视化结果的可靠性;同时具有较少的视觉混乱,更加自然且符合人类直觉,提高可视化结果的视觉吸引力和信息传达的效率。韦恩图和欧
学位
目的:观察化瘀消痛汤联合小针刀治疗腰椎间盘突出症(LDH)的临床效果。方法:80例按随机数字表法分为两组各40例。两组均予以小针刀治疗,观察组加用化瘀消痛汤治疗。结果:观察组总有效率高于对照组(P<0.05),观察组治疗后下肢疼痛与麻木、腰腿疼痛不适、工作生活能力及下肢行走能力评分低于对照组(P<0.05),观察组治疗后JOA评分高于对照组而ODI评分低于对照组(P<0.05),观察组治疗后超敏C
期刊
药品是一种不可或缺的公共产品,关涉到全社会乃至全人类的健康状况,新药研发过程复杂、周期长、高度依赖专利保护。基于药品在公共健康领域的重要性以及其研发过程的特殊性,我国高度重视药品专利制度的完善,申请日后补充实验数据是其中一个亟需完善并细化的问题。允许申请日后补充实验数据符合药品专利自身特点,但是会在一定程度上冲击专利的先申请原则和“以公开换保护”原则,本文着重讨论我国申请日后补充实验数据的审查标准
学位