基于深度学习的图文转换算法研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:tanchishe0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的快速发展,与人们息息相关的数据形式——图像和文本的研究也越来越多,近几年来针对于图像和文本的研究存在着融合的趋势,即不单单只针对图像或文本进行研究,而是将两者放入到同一个领域进行研究。与之相关的主要研究领域包含两个,一是图像生成文本领域,二是文本生成图像领域。在图像生成文本领域,2014年首次提出多模态卷积神经网络(multimodal Recurrent Neural Networks,m-RNN),通过将循环神经网络(Recurrent Neural Networks,RNN)与卷积神经网络(Convolutional Neural Networks,CNN)进行结合取得了突破性的进展,该结构也奠定了图像生成文本领域的基本结构框架。在文本生成图像领域,2016年提出的使用深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)结合循环神经网络、卷积神经网络首次实现了端到端的文本到图像的合成。尽管后续两个领域的许多研究各自都取得了很大的进展,但进一步提升各自结果的质量仍然具有很大的挑战。整个课题主要进行图文转换算法研究,图文转换主要包含图像生成文本和文本生成图像两块研究内容。课题的主要目标是进一步提高图像生成文本和文本生成图像领域对应模型的性能,促进图文转换的进一步发展。整个课题通过两套方案来实现该目标,方案一是独立提升学习方案,即在各自的领域中进行改进以实现对应的性能提升。独立提升学习方案在图像生成文本的密集图标注领域中获取了更为优异的结果,性能上超越了现有的最先进的方法。该方案在文本生成图像领域中进一步提升了生成结果的清晰度和真实性,促进了文本生成图像领域的进一步发展。方案二是单边对偶学习方案,即将图像生成文本和文本生成图像的模型放到一个结构中并使用单边对偶学习的方式去训练从而最终提升图像生成文本和文本生成图像模型的性能。该方案通过实验表明了在提升图像生成文本和文本生成图像模型性能的可行性和有效性,在两个领域中均取得了更为优异的生成结果。通过这两套方案实现了图像与文本之间的任意转换,并且所有的实验结果展示了两套方案在获取更高质量转换结果上的有效性。整体而言,该课题研究一方面进一步促进了图像生成文本和文本生成图像研究领域的研究进程,另一方面为今后图像生成文本和文本生成图像相应模型能够具体应用打下坚实的基础。
其他文献
溶剂在氧化还原反应中起至关重要的作用。大量研究表明,溶剂对催化活性和产物分布有显著影响。合适的溶剂可以有效地降低反应的吉布斯自由能,还可以提升反应速率。同时,研究
混流泵兼具流量大与扬程高的优点,广泛应用于南水北调工程、农业灌溉、喷水推进、水下鱼雷发射等领域。随着混流泵应用领域的拓展,其瞬态性能已经受到人们的广泛关注,特别是
随着现代工业的发展,机械臂得到了越来越广泛的应用,对机械臂运行过程的精度要求也越来越高。在实际运行中,机械臂系统的模型中往往会存在某些未知的非线性项,同时机械臂的输入和输出也可能会受到一定约束,这给控制算法的设计增加了难度。为了提高控制算法的实用性,应该将机械臂关节处的执行电机考虑进模型中,并使用电压作为驱动信号。因此,对输入及输出受约束的电驱动机械臂系统设计高精度的控制算法成为了当前的热门研究方
改革开放以来,中国在控制政府规模方面做出了许多努力。十九大报告中也提到,要转变政府职能,深化简政放权。当政府规模超过一定范围,继续扩张就会伴随着一些不平衡、不协调、不可持续的矛盾和问题。只有保证政府规模适度,才能提升政府办事效率,增强服务效能,提高公众利益。根据我国现有的税收体制,资源丰富的地区,地方政府的可支配税收收入较多,地方政府不需要向上级政府公开财政信息以获得财政拨款,也缺少主动向社会公众
随着互联网的发展和信息技术的广泛应用,我们的学习、工作和生活世界都发生着巨大的变化。比特如洪流一般,不停地穿梭于各个设备之间,满足着人们对信息的需求。我们所处的信息环境也变得纷繁而复杂。大量的信息从邮箱、软件、学术网站等处喷涌而出,像是用消火栓去喝水一样多到让人喘不过气。当人们的信息处理能力已经追不上信息处理需求的时候,信息过载现象就产生了。这无疑为信息使用者的信息处理能力带来了巨大的挑战。当代大
氢能是最有希望替代化石能源的新型清洁能源,目前氢能的主要来源为光催化或者电催化分解水制氢。水的分解包含析氢反应(Hydrogen Evolution Reaction,HER)和析氧反应(Oxygen Evo
随着汽车逐渐成为工作、生活、娱乐的一部分,人们对乘坐舒适性的关注越来越高。由于车身结构面板众多且是车内乘坐舒适性的重要影响因素,而面板声学贡献量分析(Panel Acousti
εL~+是描述当前流行的大规模医学本体的一种轻量级描述逻辑语言,它的广泛使用引起了研究者对该语言下推理问题的研究兴趣。本文致力于解决描述逻辑εL~+中理由的抽取,实现对
在我国的经济发展过程中,股票市场的作用不可小觑。自我国上海证券交易所和深圳证券交易所成立以来,我国资本市场的发展便产生了翻天覆地的变化。股票交易所不断发挥着其决定市场价格、优化资源配置的作用,推动着我国的证券信息交流和经济发展。在股票市场之中,股票流动性与股利支付是两个重要的话题。股票流动性是指投资者以最少的成本、最小的价格影响和最快的速度完成交易大宗股票的容易程度。其作用是帮助衡量股票交易速度,
近年来,细颗粒物以及臭氧污染问题在我国频发。Volatile Organic Compounds(VOCs)作为PM2.5以及臭氧的前驱体,其巨大的排放量及惊人的增长趋势,使得VOCs的治理成为了国家和地区