基于生成对抗网络的文本生成图像研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户：gaolch008

【摘要】

：

【作者】

：

潘睿

【机构】

：

上海财经大学

【出处】

：

上海财经大学

【发表日期】

：

2022年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本生成图像,即给定一段文本描述,生成符合该文本语义的图像,这是一项结合自然语言处理和计算机视觉的跨模态任务。完成这项任务有两个目标:一是生成的图像保持一定的自然度,二是生成的图像包含文本信息,即图像与文本的语义一致。近年来,研究者们在文本生成图像任务上不断突破和创新,生成图像的质量越来越高。但是,由于该任务的复杂性,生成的图像与真实图像还有一定的差距。相对于类别标签等条件输入,自然语言文本的复杂性使得模型在利用输入条件的细节信息时面临着很大的挑战。同时,自然语言文本具有很强的主观性、多样性,即使是相同的语义信息,文本的表达形式也各异,这使得模型在保持生成的图像与文本的语义一致性上有一定的困难。另外,对于文本生成图像任务,目前的研究大多基于英文,一是因为英语是全球第一大语言,权威性的论文几乎都是以英文形式发表,英文的关注度也远远高于其他语言,二是因为文本生成图像任务需要大规模的文本和图像对应的数据集,数据集的标注既费时又费力,而英文-图像数据集相对比较完备。根据中文生成图像的研究一直比较少,因此需要更多的构思和创新。基于此,本文着力于探索中文文本生成图像的任务,并在此基础上提升生成图像的细节,保持图像与文本的语义一致性。本文主要研究工作可概括如下:1、构建了一定规模的中文-图像数据集,由于中文和英文的语言规则不同,如分词问题,采用了针对中文文本的处理方式。2、针对中文生成图像任务,本文提出了一个结合注意力机制和文本语义对齐结构的生成对抗网络结构。以堆栈生成对抗网络为基础框架,通过堆栈的结构逐步的生成高分辨率的图像。模型的注意力机制包括两个方面:1.将文本编码为全局句子向量的同时,将文本中独立的词语也编码为向量,在绘制图像子区域时,注意力将集中在与其最相关的词语上,尽可能使每个单词都在图像中被正确的表示;2.深度注意力多模态相似模型,将文本特征和图像特征映射到一个公共的语义空间,计算词语级别和句子级别的图像-文本的相似度,从而为生成器的训练提供细腻度的图像-文本匹配损失,解决了生成图像不够准确、细节不够清晰的问题。在模型生成图像的最后加入文本语义再对齐结构,将生成的图像重新描述为文本,计算重新描述的文本与原始的条件文本之间的相似度,提供额外的文本语义再对齐损失,解决了因中文表达形式多样,导致生成的图像出现语义偏差的问题。3、对本文提出的模型在中文数据集上进行实验,并与相关变体模型进行对比,实验以IS、FID作为客观评估指标,实验结果表明,在这些指标上本文提出的模型生成图像的效果优于其他模型,生成的图像更加真实、细腻、清晰、多样,且与真实图像有更小的差距。同时,本文还设置了一种主观测试作为补充评估,评估结果表明本模型生成的图像在人眼视觉效果明显上优于基准模型。另外,对模型进行了语义捕捉能力实验,测试结果表明模型能够很好的捕捉文本中的细微语义差异,根据文本中细微词语的变化发生很大的像素改变。最后,将模型与其他模型进行比较,实验结果表明本文提出的模型在生成图像的物体结构、清晰度以及细节表现上都优于其他模型。综上,本文提出了一种针对中文文本生成图像的生成对抗网络模型,模型以堆栈生成对抗网络为基础框架,结合了注意力机制和文本语义再对齐结构,在保证生成图像的清晰度的同时,保持图像与文本信息的语义一致,为中文文本生成图像的研究提供了一种思路。

其他文献

基于用户体裁偏好的跨域迁移推荐模型

随着互联网及其相关技术的发展,人们在享受网络带来的便利的同时,也面临着严重的信息过载问题,在面对海量信息的同时,不仅难以获得对自己有用的信息,也降低了自己的浏览体验。推荐系统是解决信息过载问题的有效手段,它能从用户的历史记录里学习到用户的偏好信息,并基于此预测用户在未来的信息获取需求,做出个性化的推荐。推荐系统不仅大大提高了用户获取有效信息的效率,提高了用户的使用体验,也给使用了推荐系统的企业带来

学位

基于孪生网络的相似文本判别

在信息检索系统中,当用户输入查询后,需要快速返回相应的信息。在类似于知乎、百度知道等问答社区中,当用户提问时,若能快速匹配到最为相似的问题,并返回已有的解答给用户,可以防止重复提问的同时,也可以提高用户的体验。在智能客服或问答系统中,需要对用户的意图进行准确地识别,有效地解决用户的诉求。在上面举的例子中,都绕不开一个最为基础且核心的问题,就是文本语义的相似性判别。以人工智能技术为基础的智能客服系统

学位

基于多模态融合的虚假新闻检测

随着科技的进步,新闻可以在很多途径下进行传播,大家可以通过各种社交工具以及新闻网站查看到最新的资讯。在这些社交网站上,用户还可以在推送的新闻底下发表自己对此事的看法。发表者有时会用匿名方式进行消息的发布,这就导致了目前网络上各种虚假新闻的出现。这些虚假新闻有如下一些特点:规模大、传播速度快、造假手段多种多样等。对于一些恶意的虚假新闻严重时会造成大众的的恐慌,对企业也会带来一定程度的危害,甚至会造成

学位

基于字词混合向量的对话文本分类探究

近年来自然语言处理技术受到了学术界及工业界的广泛关注,人机对话技术作为自然语言处理技术中重要的应用之一,不断有学者对其进行研究。人机对话系统中一个关键的任务为意图识别,该任务要求聊天机器人能够对用户的输入内容进行语义理解,并将输入内容分类到正确的类别当中。意图识别模块的性能优劣将直接影响人机对话系统的质量好坏。提高人机对话系统对用户输入文本的意图识别能力,能更准确、更高效的服务用户,同时减轻人工客

学位

基于多文档多答案的机器阅读理解研究

机器阅读理解是自然语言处理领域中问答系统任务的主要研究方向之一,其目标是结合给定的文本来得出所提问题的答案,属于监督学习任务。由于在传统的问答系统中,答案的提取方法过于繁琐,大量的信息无法得到有效利用,多数情形下难以高效地从原始文本中提取结构化的信息。而机器阅读理解技术则可以更好地提取原文中与问题有所关联的内容,从而较为精确地给出与问题匹配的答案,不仅可以促使问答系统变得更加健全,同时还能为实现高

学位

“死亡”意义的多模态建构对儿童认知和情感的调节——死亡教育绘本亲子阅读考察

基于L.S.Vygotsky提出的“中介”概念，通过对亲子阅读死亡教育绘本的过程进行观察和对死亡教育绘本进行图文分析，探究绘本中“死亡”意义的多模态建构对儿童认知和情感的调节作用。研究发现，绘本中的“死亡场景”有助于儿童了解死亡的生物属性，并影响他们的死亡话语实践；“死亡”的呈现方式引起孩子对死后世界的疑惑，但多数故事类绘本对死亡的社会文化实践介绍甚少；绘本图文间关系及其建构的“感情”避免儿童出现

期刊

基于两步预测的电影推荐系统的研究——以豆瓣电影为例

在当今的信息时代,推荐系统在各行各业都扮演着一个重要的角色。实现精准营销,是推荐最终的目的。根据用户的历史活动记录,尽可能地挖掘出用户相关的行为模式以及商品表现出来的某种特性等信息,构建相应的用户画像,精准的定位用户的兴趣所在,根据用户的兴趣所在为用户匹配其最可能感兴趣的商品,从而实现为最合适的人推荐最合适的商品。以中国为代表的电影强国,推荐系统的研究在电影行业领域也相当重要。本文关于电影推荐系统

学位

纯文本场景下的中文标点预测研究

随着计算机技术与互联网的不断发展,人们之间的社交以及人机交互方式也逐渐发生着变化,由文字的单一交流方式逐渐转变为文字、音频及视频的多种方式。交互方式的转变给人们日常生活带来了更多的便利,同时也为人类技术的更新迭代带来了挑战。例如,近年来新兴的社交软件中的语音社交方式,这种方式通常是将语音信号转变为文字信息,然后将文字作为信息传递的载体呈现给我们。然而在多数场景中,通过特定算法得到的音频至文本转化结

学位

VOV协动性及其对delta对冲期权收益影响的研究

波动率是对资产收益的不确定性的一种度量,在很大程度上对期权的定价具有重要影响意义,而波动率在时间维度上本身也具有不确定性,如果不能很好的理解和把握这种不确定性,那么将会造成很高的模型风险。本文将从波动率的不确定性出发,来考虑其对资产收益的影响,并使用波动率的波动率（VOV,Volatility of volatility）,来度量波动率的不确定性。当波动率的不确定性增大时,会给波动率的估计的稳定性

学位

基于图嵌入的相似视频推荐

近年来,随着移动互联网的普及,中国网络视频行业迈入了发展的快车道,行业规模的高速增长。据中国互联网协会发布的数字,2018年中国手机网民达到8.17亿,占全部网民的98.6%,同时网络视频用户达到创纪录的6.12亿人,在线视频行业市场规模达2016.8亿元,同比增长39.1%。对于网络视频平台来说,日益增长的用户量和播放量,在带来更多的经济效益的同时,也对推荐系统提出了更高的要求。相似视频推荐是视

学位

基于生成对抗网络的文本生成图像研究

与本文相关的学术论文