基于风格表示的文本风格迁移研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yuhosun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本风格是文本的重要特征,相比于文本格式、文本主题等,文本风格更加复杂,属于隐式特征。随着深度学习与自然语言处理的发展,有关文本风格的研究取得了不错的成果。目前的文本风格研究集中在文本情感风格、性别化风格等方面,而文本风格迁移任务目标,则是在保持文本主题不变的前提下,转换文本的表达风格,例如将消极表达转化为积极表达,或是将男性化表达转为女性化表达。文本风格迁移任务能够帮助人机交互系统更好地理解人类语言,同样也能帮助人类更好地理解人机对话系统的回复,因此文本风格迁移任务具有重要的研究与应用价值。本文主要对风格表示方法与风格迁移方法进行了研究,主要工作有以下三部分。(1)针对如何将文本风格特征进行表示的问题,本文提出了基于标签嵌入与图神经网络的风格表示方法。基于图网络技术,本文将自然语言数据集转化为文本图结构,并利用Node2Vec算法,在同一向量空间下,对文本单词节点与风格标签节点进行嵌入表达,进而获取了风格标签的向量表示,进一步与现有的标签嵌入算法进行了对比,获得了更好的嵌入表示效果,验证了所使用方法的优越性。(2)针对如何将风格表示方法与文本风格迁移任务相结合,以及中文领域相关研究不足的问题,本文提出了一种基于风格表示的文本风格迁移方法,并构建了中文数据集。通过前文提出的风格表示方法,可获取风格特征的向量表示。进一步,本文构建了Transformer模型,尝试了多种方式,将获取的风格表示向量与文本生成模型相融合,构建文本风格迁移模型,并获得了更好的风格迁移效果。同时,由于目前的文本风格迁移研究,多集中在英文领域,而中文的相关研究较少,为了研究者能够更好地开展工作,本文构建了三个中文数据集,并在现有的模型上进行了实验,验证了数据集的有效性。(3)针对文本多风格迁移研究中,不同风格之间相互影响的问题,本文提出了一种基于多任务学习的文本多风格迁移方法。现有的文本多风格迁移研究中,不同风格之间往往相互作用,进而造成模型整体效果降低。本文利用多任务学习中的参数硬共享方法,在共享底层嵌入的基础上,将不同风格迁移目标视作不同的任务,在多任务端对不同风格迁移目标进行解耦合,降低了风格之间的相互影响,并且在公开数据集上取得了更优的多风格迁移效果。同时本文从模型架构以及训练算法角度,分别构建了消融实验,验证了模型中不同模块与训练方法的必要性。
其他文献
随着互联网技术的发展,越来越多的社交媒体网络平台逐渐产生,为人们带来了新的获取信息的途径,成为了人们日常生活中获取公开信息的主要来源方式。相比与传统的新闻媒体,微博、今日头条等社交媒体网络具有更好的互动性和时效性,有着更丰富的新闻表现形式,能够在新闻发生后第一时间帮助人们获取相关资讯。但是社交媒体网络中的新闻并非全部都是关键信息,包含大量冗余内容。人们可能需要花费更多的时间从新闻中获取需要的信息。
学位
神经网络中文分词系统可以在手工标注资源丰富的领域内场景下能提供最先进的分词性能。但是,当遇到医疗领域等专业文本时,由于领域内标注资源的稀缺导致中文分词系统的性能骤降。现有神经网络中文分词系统在低频术语的分词上表现不佳。针对中文分词任务在跨领域场景下的数据分布不匹配和未登录词识别困难问题,提出了一种词典增强图卷积神经网络领域自适应中文分词方法。首先,利用外部词典对输入句子进行候选词匹配,构建基于词典
学位
近年来,视频成为了各大媒体的主流数据,基于视频数据的研究成为了当下的热点。动作识别针对的是人体运动相关的视频,是目前人工智能领域中比较前沿的研究方向。动作识别已广泛应用于诸多领域,如步态分析、增强现实、人机交互、娱乐和游戏、体育科学等,因此具有巨大的研究意义和研究潜力。本文面向动作识别领域中的多粒度分类问题进行研究,当前相关算法已经取得了重大突破,然而仍存在一些待解决的问题。首先,现有方法中的自注
学位
本篇报告是一篇关于机器翻译加译后编辑模式下的翻译实践报告。原文选自《泡沫灭火系统设计规范条文说明》的前两章。该文本是中国公司为援助柬埔寨消防建设,根据相关中国标准编写的文件,需要翻译成英文供柬埔寨相关部门作为该国国家标准借鉴使用。该项目旨在提高目标读者对消防规范的了解,并在翻译过程中提供有效的翻译策略。原文用词准确、严谨、逻辑性强,内容存在较多数字和表格,属于典型的信息型文本。在译后编辑过程中,通
学位
目前,各种知识库中存储了海量的生物医学文本,其数量还在呈指数增长。这些文献是生物医学技术发展的结晶,通过信息抽取技术挖掘隐藏在生物医学文本中的有用知识是一个重要的研究课题。实体关系抽取是信息抽取的一个关键子任务,它在命名实体识别的基础上,把包含实体对的文本分类到预先定义好的关系类型中。目前,面向生物医学文本的实体关系抽取研究致力于通过构建深度学习模型来自动地从无结构化的生物医学文本中抽取出结构化的
学位
随着司法体制改革的不断纵深发展,法律文书数字化的程度不断提高,网络上可获得的法律文本信息实现了指数级的增长。但不同种类的法律文本书写规范相异较多,难以通过规则直接进行文档理解和知识分析。因此越来越多的研究者将自然语言处理技术应用到法律文本,通过信息抽取将非结构化的文本转化为结构化的数据,促进了司法信息化发展,提高了司法效率。信息抽取包括命名实体识别、关系抽取和事件抽取,目的在于抽取出文本中的实体关
学位
情感是人类心理最基本的组成部分之一,对人类的情感进行分析有助于判断个体的认知及行为,有着广泛的应用场景。由于人类实际上是结合多种信息去判断他人的情感的,那么采用多模态深度学习开展情感分析工作成为了理所当然的选择。虽然引入多模态信息提高了情感预测的性能,但与此同时也引发了诸多呈待解决的新问题。而这些问题,本质上都是多模态表示的问题。本文从多模态表示学习的角度出发,针对多模态情感分析中的一些难以解决的
学位
本文研究了亚临界星型河渠网中非稳定流的多种能控性问题,并将其结论推广到星型拟线性双曲型方程网的精确能控性.本文首先得到了非稳定流在亚临界星型河渠网中其半整体C1解的存在唯一性,实现了仅在复结点施加控制或在复结点与部分简单结点任意分配控制个数时星型河渠网络的精确能控性.在此基础上,本文进一步推广,得到了由一般拟线性双曲型方程构成的星型网的半整体C1解的存在唯一性,并采取构造性的方法通过将控制全部施加
学位
随着生物医学的快速发展,生物医学文献的数量也在逐年增长,生物医学文本已经成为目前最重要的科学研究资源。如何充分地利用海量生物医学文献,从中获取对生物医学发展有用的相关知识,为相关医学工作者提供有价值的信息,有着重要的意义。相比于使用搜索引擎输入关键词获得信息,智能问答系统允许用户直接以自然语言的形式描述自己的问题作为输入,可以筛选或生成精确又简明的答案,有着更好的用户体验。本文以生物医学智能问答为
学位
本文主要研究如下由G-布朗运动驱动的随机微分方程(GSDE)的解的存在唯一性及稳定性,不稳定性和稳定化:x(t)=x0+∫0tf(s,x(s))ds+∫0th(s,x(s))d<B>(s)+∫0tg(s,x(s))dB(s),其中t ≥ 0,x(0)=x0∈Rn是初值,B(·)是一维G-布朗运动,<B>(·)是G-布朗运动B(·)的平方变差过程,系数f,h,g:R+×Rn→Rn.第一章介绍研究背景
学位