面向生活情境常识的机器阅读理解研究与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:my163mail12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读理解不仅需要理解文本中所阐述的内容,还需要理解字里行间的内容。在自然语言处理领域,诞生了诸多预训练模型,这些模型从开放的语料库中学习到了渊博的知识,从而提升了如问答、智能对话等多领域数据集上的表现。然而,让机器能够理解生活情境常识时,效果却不理想。这是因为现有的模型未能引入、融合常识知识实现机器本身的自我理解。针对这一问题,本论文开展基于生活情境常识的机器阅读理解研究。作为实现机器智能理解常识知识的关键任务之一,生活情境常识源于生活中的故事,从中寻找问题,并发现与选项之间的关联度。因此十分考验机器对生活情境知识的理解、语义的分析和部分推理能力。围绕这一相关内容,本文主要开展以下研究工作。(1)针对中文生活情境常识的多项式机器阅读理解,选择一个自由形式的多项式中文机器阅读理解数据集,该数据集是康奈尔大学的留学生发布。本文采用BERT模型,在基础模型上对输入层、编码层和输出层进行改进。通过在输入层将上下文、问题和答案通过序列化标记成为一个新的序列,交互层对上下文、问题和候选项加入多头注意力机制,并修改掩码机制的占比,最终在测试集上进行可靠性验证。实验结果表明,在基础模型上改进后的模型在CD~3,CM~3和C~3准确率达到62.28%、63.33%和63.07%。修改掩码机制占比后,全词遮蔽比掩码机制为15%在准确率上分别提升了0.95%、2.52%和1.77%,呈现出的效果较好。(2)针对英文生活情境常识的多项式机器阅读理解,选择日常叙述故事的大规模数据集Cosmos QA和富有基础性常识推理的SWAG数据集,来验证不同方法在数据集上的泛化能力。在该类任务中,本文针对语义的匹配采用基于语义匹配的Co-matching模型,双重协同匹配网络的DCMN+模型,以及预训练模型GPT、BERT和融合多头注意力机制BERT模型。通过不同的方法在数据集上进行验证,进一步证明了融合多头注意力机制BERT模型的泛化性能。
其他文献
人口老龄化趋势日益严峻,养老问题是每个家庭所关心的“家事。受到不断加快的人口老龄化进程的影响,我国的家庭结构发生了根本性的改变,家庭规模持续小型化、传统的家庭照料功能不断减弱,加之现如今物质生活水平的提高,人均预期寿命得到了延长,老年人在日常照料、医疗救助和精神关怀等方面的需求不断增长。目前我国现存三种养老方式:居家养老、社区养老和机构养老。家庭养老是老人子女为老人提供生活上的服务,但是随着家庭养
学位
文本相似性度量用来表示文本的语义相似度大小。近年来科学论文数量剧增,科学论文具有很强的针对性、严谨性、段落长、高度程序化等特性,语句结构复杂严谨,包含了丰富的领域知识,专业性极强。论文的摘要部分凝结了主要研究的方法理论、技术、研究过程等信息内容,能表达科学论文主要的研究内容信息,为研究人员高效地、快速地获取有用的内容提供方向。本文以科学论文的摘要为对象,进行文本相似度计算研究。本文以新冠领域科学论
学位
随着社会的不断发展,人们的思想在发生转变,在刑罚领域,人道主义的呼声日渐高涨。人类刑罚制度经历了报复刑、威慑刑再过渡到教育刑的时期,体现出刑罚制度的人性化。在这过程中,社区矫正这一在欧美国家兴起与发展的制度在中国也逐渐发展起来。广西壮族自治区近年来深入推进社区矫正机制改革,建成社区矫正中心并且挂牌成立社区矫正教育基地,通过政府购买社会服务的方式引进了一大批专业化、职业化的社会工作者,专门负责对接社
学位
阅读网络小说作为人们的消遣方式之一,是很多人闲暇时愉悦身心的选择。一本小说需要塑造很多不同角色来推动故事情节的发展,但网络小说篇幅较长,阅读耗时较多,读者记忆不深刻,前后文衔接不上,影响阅读观感。如何应用深度学习技术将其复杂的文本结构转化为清晰明确的结构化信息是本文的主要研究内容。针对以上问题提出命名实体识别模型以及关系抽取模型,更进一步将二者联合建模,解决实体冗余、关系重叠等问题,从而实现网络小
学位
近年来,语言模型取得了巨大成功,然而其本身还是缺乏常识知识建模的能力,这阻碍了其在实际应用场景的大规模推广。知识已被证明能为模型提供更全面丰富的语言建模能力。通过多维度常识和领域知识,增强模型的鲁棒性。句法分析能力作为模型必不可少的基础能力,其重要性毋庸置疑。现已有多项研究工作尝试对模型进行句法增强以提升效果。但其大多数需引入单独的句法模块或只能应用在特定任务上,这无疑增加了模型的计算复杂性和应用
学位
近些年来语音合成技术取得了较快发展,在单一语言上合成的语音已经具有非常高的可理解度和自然度。但是一旦提供给模型的文本包含来自非训练语言的词语,模型的性能便急剧下降,对这些词语的合成结果近似噪音。语码转换指的是在同一语篇中使用两种甚至2种以上的语言或语言变体的现象,在语音合成中实现语码转换的需求普遍存在。使用单语言模型来完成语码转换任务对训练集要求较高,然而这种带标注的多语言语料的获取存在困难,同时
学位
精神健康问题近年来越来越多地出现在公众视野,并逐渐从以医学为主的治疗模式发展为心理学、社会工作等相关专业协作应对的治疗模式。社会工作在介入精神障碍患者康复服务中,不局限于临床方面的康复治疗,更注重患者自身能力的恢复与提升。以复元理论为主导的精神障碍患者康复服务,视服务对象为完整的人,重视其在复元过程的自主性,易于被精神障碍患者与家属接受,而且复元服务对于精神障碍患者回归社会生活具有显著效果。复元力
学位
随着数字化、智能化技术水平的不断提升,人们对智能手机等移动终端设备的需求力度加大。然而,只有极少部分的老年人才能够掌握关于智能手机使用技巧,尤其是对独居老人等较为弱势的老年人群体来说,对智能手机的使用还存在很多问题。信息化时代是在给人类社会带来便捷、高效的同时,也要展现出公平和多元的社会氛围,智能手机带来的便利应当属于每一个人。帮助独居老人提高对智能手机的认知和操作能力,提升老人对智能化社会环境的
学位
电商领域细粒度情感分析主要是针对每条电商平台评论文本中各个属性,即方面的情感倾向进行分析,不再是对整条评论文本进行情感倾向分析,更贴近于用户的实际需求。本文围绕中文电商评论文本对细粒度情感分析进行研究,并在此基础上设计并实现了电商评论细粒度情感分析系统。本文所做的具体工作如下:(1)针对方面情感三元组提取任务中缺乏中文电商评论数据集的基础问题,本文从某电商平台爬取了笔记本电脑领域的5602条评论,
学位
近年来,随着元宇宙如火如荼的发展,虚拟数字人研究也获得了飞跃式进展,并被广泛应用至各个领域。语音驱动的虚拟人脸动画生成技术,旨在给定任意一段语音,生成逼真自然、唇音同步的虚拟人脸动画。一段高质量的虚拟人脸动画的生成需要考虑数据精确度、面部表情的真实性、唇部运动与语音的一致性、视频帧的质量等多方面因素。因此,本文提出了一种基于运动捕捉数据的国家通用语虚拟人脸动画生成方法,通过引入面部捕捉技术获取高精
学位