基于预训练语言模型的机器阅读理解研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:mcl8023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解是自然语言处理领域的热门研究方向,旨在根据文章和问题预测相关答案,其研究内容更加贴近实际应用,预测的准确率更能够体现模型性能。预训练语言模型利用已有的大量数据,学习通用的语言表示,能够提供一个更好的初始化模型,加速目标任务的收敛;同时,还可以避免在小样本数据集上出现过拟合现象。本文主要面向机器阅读理解任务进行深入研究,具体工作如下:(1)针对现有抽取式机器阅读理解模型无法深层次捕获全局语义信息的问题、以及文章与问题无法进行深层次信息交互的情况,本文构建了一种基于Mac BERT(MLM as correction Bert)的多层感知机预训练微调范式。该方法能够在极大程度上解决传统静态词向量无法处理的一词多义问题,同时,多层Transformer结构能够更好地捕捉长文本间的语义关系,对于机器阅读理解这类长文本任务具有极大的优势。MacBERT通过相似词代替传统掩码的方式,使之更加贴合机器阅读理解的本质,解决了传统范式存在的预训练微调不一致的问题,再经过多层感知机对交互信息进行答案预测,其性能相较于传统模型得到了一定的提升。在CJRC数据集的片段抽取类(Span-Extraction)问题中,该模型在民事案件上的F1值为82.8%,在刑事案件上的F1值为79.8%。(2)为适应不同类型问题的相应特征,提出不同的预训练微调范式。第一,对于片段抽取类问题,使用双向长短时记忆网络捕获全局信息,使模型能够学习到文章到问题以及问题到文章的特征交互信息,学习较远距离的相关特征表示。该方法适用于答案片段跨度较大的片段抽取类问题。第二,对于是否类(YES/NO)问题,使用自注意力机制充分挖掘文本间细粒度的文字线索。第三,对于无答案(Unanswerable)问题,使用预训练模型中包含全文句向量信息的特殊标识符[CLS]进行判断。在CJRC数据集民事案件上,该模型的F1值为84.7%;刑事案件上,该模型的F1值为82.3%。本模型同传统的双向注意力流(Bi-Directional Attention Flow,BiDAF)模型相比,民事案件F1值提升了23.6个百分点,刑事案件F1值提升了19.6个百分点;与未使用本实验所设计网络层的Mac BERT模型相比,民事案件F1值提升了3.5个百分点,刑事案件F1值提升了4.9个百分点,验证了基于预训练模型的面向多类型机器阅读理解方法的有效性。
其他文献
《三侠五义》是中国古典侠义公案小说之经典之作,书叙北宋仁宗年间包公在众多侠客义士的帮助下,审奇案、平冤狱以及众位侠客义士伸张正义,除暴惩恶,扶贫济困的侠义公案故事。《三侠五义》自成书后,别开生面,很是新奇,深受民众的喜爱。清末民初,《三侠五义》译介至蒙古族聚居区,以口头和书面形式广为流传。据目前掌握资料,传世《三侠五义》蒙古文译本仅有两种,分藏于内蒙古社会科学院图书馆和蒙古国国家图书馆。本文对上述
学位
蒙古语复合词是词汇的重要内容,复合名词是复合词的主要内容。自古以来,复合名词结构语义研究一直是学者们探讨的重要话题,语言研究的深入推动着蒙古语语义研究的日渐丰富。复合名词成分之间的语义组成问题和结构语义分析对语义研究提供理论意义和实践意义。本文从自然语言处理研究角度出发,从《蒙古语复合词语料库》,《蒙古语辞典》,《蒙汉词典》等语料库和词典中共统计出455个蒙古语五行词构成的复合名词,运用语言学的相
学位
植物名的研究是词汇研究中不可或缺的重要组成部分。植物名中蕴含着独特的民族思维和传统文化的印记。本文在前人相关研究成果的基础上,主要运用了统计法、描写法、认知语言学和文化语言学的方法,对《蒙古语辞典》中收集的1658个植物名进行了归类,并分析了其结构特征和命名特征,阐明了部分植物名的来源,阐述了植物名所反映的认知特征和传统文化。本文由绪论、第一章、第二章、第三章、结论、参考文献、附录等几部分组成。绪
学位
吐鲁番位于今新疆维吾尔自治区的中部,是天山东部的一个东西横置的形如橄榄状的山间盆地,四面环山,是古丝绸之路上东西方文化交流的重镇。吐鲁番出土文献种类较多、语种多样、内容丰富。吐鲁番出土回鹘式蒙古文文献包括手写文献和木刻文献两种,本文以木刻文献为研究对象。吐鲁番出土回鹘式蒙古文木刻文献是蒙古族宗教文献资料的重要组成部分,它具有历史学、文献学、宗教学、语言文字学等多方面的研究价值。通过对吐鲁番出土回鹘
学位
《丙寅》杂志是现代文化事业的先驱卜和克什克(1902-1943年)创办的民间综合性刊物。本论文将《丙寅》杂志的文学活动从传承问题、创新问题、建构问题进行系统化研究,分析概括该杂志对蒙古族现代文学起到的承上启下的作用。主要结合运用了统计学方法、社会历史批评方法、传播学、文献学等研究方法。本论文由绪论、正文(1-3章)、结论、参考文献等四个部分组成。绪论部分,主要介绍了选题缘由、研究综述、选题目的及价
学位
在中古蒙古语文献中,除了回鹘式蒙古文文献、八思巴字蒙古语文献、汉字标注蒙古语文献以外,还有阿拉伯字标注蒙古语文献。在阿拉伯字标注蒙古语文献中,《穆卡迪玛特·阿勒-阿达布蒙古语词典》是阿拉伯语-波斯语-突厥语-蒙古语四种语言的词典。这部词典最初是阿拉伯语-波斯语词典,是十二世纪穆罕默德·札马赫沙利创编的,之后在此基础上增加了突厥语,至于第四种蒙古语具体是什么人增加的至今未有明确记载。《穆卡迪玛特·阿
学位
肺结节是早期诊断肺癌的判断标准,对肺结节进行准确分割是制定治疗方案的关键步骤,可以大大提高肺癌患者的治愈率。然而,现有的肺结节分割网络在捕获特征的过程中特征丢失严重,局部上下文信息获取不足,造成小结节区域分割不准确、边缘分割不精确等问题。针对上述问题,本文基于深度学习技术,针对CT图像中的肺结节分割任务,提出两种肺结节分割网络模型,以提高肺结节的分割准确性,主要内容如下:(1)首先,设计了一种结合
学位
从中古后期至宗教改革时期,罗马大公教会的教士群体在权力、财富、道德等方面招致了社会各阶层的不满与批评。欧美史学界将这一历史现象称为反教士主义。反教士主义是一个基于宗教改革史研究所需而构建出来的概念。反教士主义批评在中古后期经常出现,其批评者包括俗人与部分教士,但并非所有的反教士主义批评都会导致教会的分裂。因此,反教士主义并不会直接推动宗教改革的产生,但反映了中古后期的教会在制度上存在脆弱性,包括长
期刊
蒙古语熟语是在蒙古族漫长的生活经验中提炼成型的,它蕴含着蒙古族独特的文化思维、习俗以及生活智慧,从而成为了世代相传的非物质文化的一部分。含十二生肖名称的蒙古语熟语在熟语研究及词汇研究领域占有重要地位。本文在前人对十二生肖和熟语研究的基础上,以《蒙古语熟语大辞典》中搜集到的2178条含十二生肖名称的熟语作为研究对象,用统计法、描写法、认知语言学方法和文化语言学方法对其数量、分类、结构特征、修辞特征及
学位
人体动作识别是计算机视觉领域重要的研究课题之一。根据数据处理类型,人体动作识别可以划分为基于RGB视频数据和基于骨骼数据两类方法。相较于RGB视频数据方法,基于人体骨骼数据的方法能够规避视频中背景噪声的干扰;同时,Open Pose、Deep Cut等人体骨骼估计算法的日益成熟,使骨骼数据的获取变得更加容易;因此基于人体骨骼数据的方法具有一定的优势,随着图卷积网络的发展,此类方法也取得了质的飞跃。
学位