文本表示模型研究以及在文本分类和自然语言推理的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:homejang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理由于其巨大的应用潜力,引起了来自不同领域研究人员的广泛关注。文本表示:即如何有效地表示词、句子或文档以刻画它们的语义信息是当今自然语言处理领域的核心问题之一。针对不同的应用目的,如句子关系推理、文本分类、情感预测、实体及关系识别等,已有各种文本表示策略。然而,我们发现:(1)双向LSTM网络作为目前最受欢迎的文本表示网络,忽视了每个词向量以及每个方向的文本向量对于整体文本表示的贡献度,影响了最终的编码结果。(2)目前的多任务联合训练文本表示模型没有考虑到同一任务下的不同数据集的联合训练对文本表示模型的影响,忽略了同一任务中不同数据集联合训练可能会带来的数据增强效果。针对以上问题,本文主要研究工作如下:(1)提出了基于方向注意力机制的句子表示模型。我们在传统双向LSTM网络内部,加入了词注意力层和自适应方向权重层,用于学习每个单词向量以及每个方向的文本向量对于整体文本表示的贡献度,对每个单词向量以及文本向量进行贡献度加权,从而提升文本表示模型的编码能力。将此模型应用于句子表示学习中,基于ESIM模型提出了a ESIM模型用于处理自然语言推理任务。实验结果表明,a ESIM模型性能要优于原始模型,同时证明了基于方向注意力机制的双向LSTM网络的性能要优于传统的双向LSTM网络。(2)提出了基于方向注意力机制的文档表示模型。我们使用了基于方向注意力机制的双向LSTM网络,构建了基于方向注意力机制的文本分类模型,其结果要优于常见的文本分类模型。我们通过多组消融实验证明,用于文档表示学习的多个网络组件对文档表示学习能力有提升作用。(3)提出了同源数据集联合训练多任务学习方案。我们根据不同文本数据集的语义相似性对同一任务下的不同数据集进行分类,提出了同源数据集与非同源数据集的概念,并使用多任务学习框架对文本表示模型进行联合训练。实验结果表明,基于同源数据集联合训练的文本表示模型相对于单个数据集训练的文本表示模型来说,其性能更加优良。但是对于非同源数据集联合训练得到的文本表示模型来说,性能并未得到提升。
其他文献
数形结合的研究是数学研究的主要内容之一,它贯穿于整个初中的知识体系当中,不仅是解题的一种思想方法,更是促进学生进一步学习、探索和研究数学的有力武器。在现阶段,《义务教育数学课程标准(2011年版)》中明确提出:数形结合是解决数学问题的方法之一。因此,如何在初中数学课堂教学中渗透数形结合思想是初中数学教学研究的重要内容。本文主要内容分三部分。首先,结合数形结合思想分析了初中阶段二次函数的教学内容,总
学位
对数及对数函数在高中数学教学中占有重要地位,是继指数及指数函数之后全新且重要的数学概念和函数模型,在实际生活以及数学学习中应用极其广泛。新课程改革非常注重数学文化在教学中的价值,并且将数学史融入数学教学,已然成为当今数学教学研究的一个重要课题,因此开发完整的数学史融入对数及对数函数教学案例,不仅能为HPM领域增砖添瓦,还能为一线教师的教学提供理论指导。本研究主体采用行动研究法,将数学史融入对数及对
学位
中学物理教学中学生物理思想的建立和认知一直是物理教师致力解决的问题,特别是在乡村中学,由于实验资源相对不足,如何通过现代技术更直观、更具启发性、前沿性地引导学生构建物理模型、形成物理思想,是近年来物理教师们关注并不断探索的领域。本文提出了在乡村中学物理教学中应用实验类科普视频提高课堂教学效果的课堂教学方案,通过访谈乡村物理教师和学生问卷调查,制定了在乡村中学物理教学中应用实验类科普视频引导学生构建
学位
青春期孩子身心发进展到了关键期,自我意识一步发展并成熟,在这段时期,父母教养方式会对初中生产生非常重要的影响,积极的父母教养方式有助于提高自我接纳和自我和谐水平,作用于人际信任水平的改变。本研究分别探讨初中生父母教养方式、自我接纳、自我和谐于与人际信任的关系以及内在机制。采用《简式父母教养方式问卷》、《自我接纳量表》、《自我和谐量表》以及《人际信任量表》展开调查,研究对象为山西省大同市和内蒙古自治
学位
云制造1.0促进了制造业的快速发展,随着人工智能、云计算等技术与制造业的深度融合,智慧云制造(云制造2.0)引起了学术界和产业界的广泛关注与研究。制造服务资源的有效适配作为智慧云制造的关键环节之一,可有效将各类孤岛式的制造资源虚拟化并通过智慧云平台实现服务资源按需适配,有助于制造商与经销商灵活地定制化生产和快速地柔性化适配,以满足客户个性化需求。本论文聚焦智慧云制造场景,主要研究制造商、经销商之间
本文以2016年新修订的《幼儿园工作规程》为研究依据,基于近年来屡禁不止的幼儿园卫生保健方面出现的重大问题,如2017年1月通州一幼儿园爆发手足口,猩红热传染病,2018年1月河北灵寿幼儿园食物中毒事件,2019年9月东莞一幼儿园发生的254人食物中毒事件,2020年10月广西一幼儿园16名幼儿感染诺如病毒等事件,结合当下全球新冠疫情,笔者选择以“幼儿园卫生保健”实施策略为主题进行研究。本文一方面
学位
劳动教育主要目的是培养学生的劳动素养,而劳动素养对学生全面发展有至关重要的作用。学校开展劳动教育的路径有很多,结合各学科特点开展劳动教育是其中一条重要路径。物理学科与生产生活有着极其紧密的联系,因此在物理教学中渗透劳动教育具有得天独厚的优势。此种教学路径不仅能体现出物理知识的价值和作用,还能有效激发学生学习物理的兴趣。以马克思劳动教育理论、苏霍姆林斯基学校劳动教育理论以及STSE教育理念作为理论指
学位
葛均义的乡土小说着眼于地域人物形象的刻画,展现其多重边地文化性格的杂糅与融合。他笔下的人物有:闯关东的拓荒者,独守深山的孤寂者,向往城市的移民后辈,勇猛野性的劫掠者和神性温情的萨满传承者以及仁厚、高洁、刚正的知识分子。这些人物形象浸润着丰富的文化因子,并在中原和边地文化的互渗与交融中造就了新型的关东文化性格。葛均义的乡土小说具有浓郁的文化意识:儒、道和萨满文化。其小说阐释了儒家自强不息,克己爱人的
学位
近几年中国儿童文学翻译蓬勃发展。2017年,曹文轩代表作《青铜葵花》英译版获麦石儿童文学翻译作品奖,成为中国儿童文学“走出去”的成功典范。目前相关研究着重从译介模式、生态翻译学等视角入手,较少关注整体文体特征,主要采用例子分析,较少采用全面的数据举证,且缺少英译本与原创英语儿童文学的对比,因此,本文采用定量研究与定性研究相结合的方法,将《青铜葵花》译本与《绿山墙的安妮》、《绿野仙踪》、90年代FL
学位
新冠疫情是2020年国际社会的重大公共健康危机。作为病毒的首个爆发地,中国遭受了国际舆论危机。部分外国政客和媒体在病毒源头问题上攻击和抹黑中国,并炒作渲染所谓的“中国源头论”“中国隐瞒论”“中国责任论”等论调。针对这些攻击抹黑,中国政府发布了《抗击新冠肺炎疫情的中国行动》白皮书作为回应,以还原事实和真相,并呼吁团结抗疫。作为真实记录中国抗疫历程的官方文件,该白皮书受到了海外广泛的关注,是中国抗疫外
学位