论文部分内容阅读
图像生成技术广泛的运用在日常生活当中,也是计算机视觉领域极为重要的研究方向。由文本到图像的生成是该方向的一个重要分支,通常的图像生成任务只能完成单个类别的图像合成,无法满足日益复杂精细的生产要求。按照给定条件的文本描述生成内容相符合细节丰富的图像变得尤其重要,特别是对于海报设计工作人员,基于文本生成图像的技术模型的自主海报生成,不仅能够大大减轻海报工作人员的枯燥简单的海报设计工作,将他们从大量重复机械的劳动中解放出来,而且能够提升他们的设计效率,让设计者们从事更加富有创造力的工作。通过文本生成符合文本内容语义表达的图形,首先需要解决计算机如何能够理解文本所包含的语义信息,其次将计算机理解后的文本语义信息转化为对应图形输出,该任务具有很强的挑战性。本文通过对文本生成图像方法进行研究,提出了一种以中文文本为输入,基于改进型对抗生成网络的文本生成图像生成的方法并进行了相应实验进行验证。在综合现有的文本生成图像的研究发现,当前的文本输入都是基于英文字符作为文本输入。为了方便国内设计工作人员,论文提出了用中文作为文本图像生成的文本输入。使用Word2vec模型产生词向量,将词向量输入到Seq2Seq模型进行训练产生文本向量。为了进一步提升生成图像的质量和多样性,本文提出基于改进U-Net网络结构的文本生成图像改进模型U-Net_GAN,U-Net_GAN文本生成图像模型分为两个阶段实现,第一阶段通过文本内容生成分辨率较低的初始模糊图像;第二阶段将第一阶段生成的图像作为输入,使用改进的U-Net网络结构来保持第一阶段图像的细节,将对抗网络当中的下采样过程替换成Dense Net网络结构,最后输出表达文本信息且分辨率较高的高清图像。实验结果显示文本生成图像模型U-Net_GAN相对于Stack GAN在Inception Score的在牛津花卉和加利福利亚鸟类数据集上分别有提升0.2%和0.3%的提升,表明U-Net_GAN能够有效提升生成图像的质量和多样性。