基于文本引导的车辆图像生成算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：braveheart

【摘要】

：

【作者】

：

侯昱臣

【出处】

：

北京交通大学

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着现代社会生活水平的提高,汽车数量高速增长,交通安全面临着重要挑战。智能交通系统由于可以将行人、道路和车辆三者组成一个有机整体,确保交通的安全性,已经被广泛应用于现代交通中了。然而,目前的交通数据集由于细粒度不够或多样性较差,已经难以满足研究需要。而生成对抗网络（Generative Adversarial Network,GAN）拥有创造细粒度数据的特性,可以解决由数据集本身导致的系统无法准确完成交通任务的问题。生成对抗网络的应用形式包括单模态和跨模态两种。本文基于深度学习方法,研究跨模态下文本引导的车辆图像生成算法,即模型可以通过文本的引导,对车辆的颜色、车型和朝向三种视觉属性进行生成,为智能交通任务提供充足的数据支持。本文主要研究内容及成果如下:（1）提出三阶段的渐进式文本-图像生成模型。该模型可以通过三个生成阶段,逐步得到256×256分别率的车辆图像,模型的每个阶段均包括文本图像融合模块、属性细节鉴别器和通道空间注意力网络。文本图像融合模块对图像特征和文本特征进行线性计算来融合文本和图像信息。属性细节鉴别器利用多个局部鉴别器,对图像的多个属性进行分类来判断和文本描述的匹配性,以此生成与文本描述一致的视觉属性。针对车辆数据集“类间距离小、类内距离大”的特点,引入了通道空间注意力网络来挖掘更有效的信息,实现更细粒度地提取图像特征。之后,本文选择Veri-776数据集作为车辆数据集,并从车辆的颜色、车型和朝向三个方面进行文本标注工作。本文通过实验证明了模型远优于其他同类模型,渐进式文本-图像生成模型不仅准确生成了与文本相关的视觉属性,也保护了原图像中与文本描述无关的其他属性。（2）提出基于小样本下深度注意力多模态相似模型的改进方法。由于数据集文本描述较少,造成生成图像中有部分出现了细节表现不佳、真实性不高的问题。本文通过深度注意力多模态相似模型来对文本编码器和图像编码器进行预训练,以此减少训练过程中的误差。同时对该模型进行了相应改进:图像编码器中加入了前文所述的通道空间注意力网络;而在文本编码器中引入条件增强技术,该方法可以从独立的高斯分布中随机抽取潜在变量来产生更多的训练对,更好地建立从文本到图像的嵌入,解决了因文本描述过少而导致生成图片质量不高的问题,同时也增加了模型的鲁棒性。本文通过实验证明了改进后模型的准确性和有效性,在CUB、Oxford-102数据集上的泛化性和通用性,以及对智能交通系统中下游任务数据支撑的有效性。

其他文献

基于复合震源模型合成地震动的参数敏感性分析

我国西南地区水能资源丰富,为了充分发挥其水能优势,在此修建众多水利工程,而西南地区为典型的强震区,这对当地水利工程的抗震设防提出严格要求。水利工程地震安全性评价过程中,场地的强震输入参数必不可少。然而工程场地附近的强震实测记录较少,对于缺乏强震记录地区,需要通过人工合成地震动代替。在地震动合成过程中,震源参数是至关重要的影响因素之一,例如地震矩、应力降、破裂速度、子断层尺寸、震源深度、断层走向、倾

学位

貂肠炎病毒微滴数字PCR检测方法的建立与应用

建立一种貂肠炎病毒（MEV）微滴数字PCR（ddPCR）方法，对貂肠炎病毒的定量诊断提供技术支持。在实时荧光定量PCR（qPCR）检测方法的基础上，建立了貂肠炎病毒微滴数字PCR方法，优化了该检测方法的反应条件，并评估了其敏感性、特异性、重复性。结果显示，建立的ddPCR方法最佳引物和探针终浓度分别为900和250 nmol/L，最佳退火温度为55℃，最佳升降温速度为2.5℃/s，本方法的最低检测

期刊

高铁技术创新为什么能成功？——基于大学的视角

中国高铁已占世界高铁总里程的60%以上,是我国自主创新的成功典范。在当前重大疫情、百年变局的历史新阶段,高铁的技术创新效应已渗透到政治、经济、社会、生态、文化等各个方面。高铁成功创新的内在机制是什么?围绕此问题,国内外学者开展了大量的研究,涵盖国家体制、产业创新、三螺旋组织等多个维度。但还缺少基于大学视角的探讨。在包含创新的一切人类经济活动中,人都是其中最具有能动性的要素。自上世纪90年代以来,伴

学位

基于深度学习的高中生物学科学思维能力培育的实践研究——以人教社新版高中生物学必修1为例

深度学习是近年来国内教育研究领域备受瞩目的理论。新课标提出了高中生物学核心素养的要求,其体现就少不了对学生科学思维能力的培养。高中生物学的发展离不开探索与实践,所以深度学习是提高学生生物学科学思维能力以及培养生物领域人才必不可少的教学途径。由于我国对科学思维和深度学习的研究起步较晚,没有相对成熟的体系和实践经验,且切入点放在高中生物学课堂教学中的应用研究较少,所以本研究将深度学习作为培养学生生物学

学位

记忆信道的零误差容量

信道的零误差容量的计算问题是信息论中一个基本的问题.在一个有噪信道中,能够毫无差错的传递信息的最大传输率就是该信道的零误差容量.这个概念最早由Shannon在1956年提出.Shannon建立了信道与图之间的对应关系并计算出C5容量的下界为（?）.1979年,Lovász建立了一个求Shannon容量上界的模型并证明C5容量的上界为（?）,从而C5的问题被完全解决.随后,人们又对Shannon容量

学位

基于深度学习的SAR图像目标识别分类研究

合成孔径雷达（Synthetic Aperture Radar,SAR）图像技术以其抗干扰能力强的特点多应用于军事侦察和民用监控等领域,但传统的SAR图像目标监测技术则由于特征信息方式提取过于单一无法适用于各种检测条件,而对数据描述归纳更深入的深度学习目标检测方法无疑是解决这一问题的最佳方式,且具有更好的泛化能力。针对当前日益庞杂的图像数据,如何基于深度学习思想,从中获取并归纳有效的特征信息,从而

学位

关于器质性精神病的若干问题

＜正＞精神疾患通常被概分为功能性与器质性两大类,前者指有精神症状,但根据目前科学技术水平还未能发现脑部有明显形态结构上改变的情况;后者指由于脑部解剖上的损害,和全身性中毒及躯体疾病而引起的大脑功能紊乱。

期刊

癌组织NF-κB、VEGF表达与食管癌患者临床特征及预后的相关性

目的分析癌组织核因子-κB（NF-κB）、血管内皮生长因子（VEGF）表达与食管癌患者临床特征及预后的相关性。方法选取2017年1月至2018年12月在新疆医科大学附属肿瘤医院保存的178例术中切除食管癌组织及癌旁组织标本为研究对象,对组织标本中的NF-κB、VEGF表达情况、患者临床特征进行回顾性分析,对患者术后连续随访36个月,对其总生存期（OS）、无进展生存期（PFS）进行随访。结果食

期刊

铁路货车标识智能喷涂机器人系统设计

在喷涂铁路货车车厢标识的作业任务中,多采用人工喷涂,容易对人体健康造成危害,传统的固定式喷涂机器人不利于在户外连续喷涂作业。在工业机器人与传感器技术蓬勃发展的现代,设计一套可以满足铁路货车车厢喷涂标识任务的智能喷涂机器人系统非常有实用价值。本文提出了一种铁路货车车厢标识智能喷涂机器人系统的设计方案,并对控制系统进行了仿真实验和现场测试。围绕系统的总体设计,基于图像的车型识别算法和喷涂机器人的喷涂轨

学位

基于UVM的AMBA总线验证环境的设计与实现

随着集成电路规模的扩大,传统的验证方法很难满足现代超大规模集成电路不断增加的验证需求,而UVM（Universal Verification Methodology）以其高效率、非定向测试和可重用的特点正在成为验证领域的研究热点,因此本论文将对UVM方法学进行学习和研究,并搭建一个基于UVM的AMBA（Advanced Microcontroller Bus Architecture）总线验证平台

学位

基于文本引导的车辆图像生成算法研究

与本文相关的学术论文