基于注意力机制与生成对抗网络的文本生成图像算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:alpine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据文本自动生成图像有广泛的应用基础,例如文字联想图片、文字自动配图,以及通过文本存储代替图像存储实现图像压缩等。同时该研究还能有效推动视觉和语言的跨模态学习和推理的研究进展。在医学领域从诊断报告生成病例图像可以为医生提供疾病诊断的参考,也可以一定程度上解决医院定期删除数据造成的对过往病例图像查询困难的问题,为医院节省存储资源。目前所有的文本到图像生成研究都基于自然图像,由于自然图像追求内容的丰富性,目前存在的方法都只对生成图像内容进行较弱的约束,这导致生成图像的内容十分容易产生形变。而这种形变在对图像质量有着高要求的医学领域是不能接受的。因此,本文提出基于内容保持与注意力机制的生成对抗网络来保持生成的医学图像的内容及纹理细节的真实性。同时大多文本生成图像算法都较为复杂,在保证模型参数不增加的情况下,如何更好的挖掘和利用文本特征来提升生成图像的质量,是该方向的研究重点之一。因此本文基于生成对抗网络,结合注意力机制与密集卷积结构,提出了基于密集连接与注意力机制的生成对抗网络,提升对文本特征与注意力特征的利用率,使得生成图像与文本描述更加一致的同时内容更加丰富。本文图像生成文本研究工作如下:1.针对诊断报告生成医学图像时容易产生形变的问题,避免生成医学图像时产生形变,本文提出了基于注意力机制与内容保持的生成对抗网络,来保持生成图像的纹理细节与真实图像一致。该模型结合了生成对抗网络、注意力机制与内容保持损失来优化生成图像的质量。注意力机制使得生成图像的内容与诊断报告描述更加一致。内容保持损失从浅层与深层特征两方面优化生成图像的纹理细节,使图像的病理细节更加真实。在超声数据集和Open-i数据集上进行了实验,评价了生成图像集和真实图像集的分布一致性。在超声数据集上两个客观指标GAN-test和GAN-train比最好的方法分别提升了10.88%和20%。在Open-i数据集上两个客观指标GAN-test和GAN-train相比于最好的方法分别提升了24%和11.58%。2.为进一步利用文本特征与注意力特征,使生成图像的内容与文本描述更加一致,同时提升生成图像的内容细节,本文提出基于密集连接与注意力机制的文本生成图像生成对抗网络。该算法模型结合密集卷积结构使得模型在每一层都可以自适应的通过文本的浅层特征、深度特征与注意力特征迭代地补全图像。分别在集鸟类数据集(CUB)和复杂自然场景数据集(COCO)上进行主观和客观评价实验。在CUB数据集上IS指标相比于Attn GAN提升了2.06%,FID指标相比于最好的方法提升了25.23%。在COCO数据集上IS指标相比于最好的方法也提升了18.67%,FID指标相比于最好的方法提升了5.84%。3.分别设计并实现了医学图像和自然图像上的文本生成图像仿真系统。对于两个系统,用户在设置完超参数后,系统自动输出对应的图像。从文本生成医学图像的仿真系统支持从诊断报告生成肝胆肾三个部位的超声图像和肺部的X光图像。从文本生成自然图像的仿真系统支持鸟类图像与复杂自然场景图像的生成。这两个系统为将来的研究提供了一个易于扩展的平台。
其他文献
图像是当今社会中一种重要的信息传播媒介,准确高效的文字检测方法有助于人们分析和理解图像中的语义信息。自然场景下的图像文本检测方法主要分为传统的自然场景文本检测方法和基于深度学习的自然场景文本检测方法。传统的自然场景文本检测算法因为存在检测效率低和准确率低的问题正逐渐被基于深度学习的自然场景文本检测方法所替代。但是基于深度学习的模型通常具有较深的网络结构,各层网络在提取图像特征的过程中存在丢失重要特
网络编码技术允许中间节点对转发的数据包进行编码组合后转发,打破了传统“存储-转发”的传输模式,有效提升了网络传输有效性和网络整体吞吐量。传统路由协议中节点只能被动获取编码机会,探究网络编码技术与路由技术的结合使得节点获得编码感知能力,主动探寻编码机会。其中,编码感知路由协议的研究成为焦点,现有研究中未考虑实际参与编码数据包的特征,片面追求编码机会的增加,制约编码增益提升的同时,导致网络中部分节点负
当今机器学习已经广泛应用于生产生活等各个方面,数据作为机器学习的原始驱动力,如何妥善筛选和处理数据正在成为学术和工业研究的热门方向。为了提升数据质量,即提升数据在分类中的效果和效率,学者们提出了许多不同功效的数据处理方法,如:不平衡采样,噪声过滤采样,大规模数据的采样等。然而,不平衡采样,噪声过滤采样,大规模数据采样往往是相互独立的采样算法,现实场景中的数据通常非常复杂,数据通常需要经过多种采样算
视频处理技术的进步使得人们对数字视频进行编辑、伪造变得更加容易,而通过深度伪造生成的视频则更加难以辨别其真实性。深度伪造常常被用于制造色情视频和与政治人物相关的虚假视频,造成突出的负面社会影响。因此,对数字视频的真实性进行鉴别变得十分重要。目前的鉴别方法主要针对深度伪造视频单帧内的伪造痕迹,缺乏对视频帧间相关信息的利用,从而忽略了光源不一致等帧间的伪造痕迹,数字视频的真实性鉴别准确率仍然较低。本文
结合移动边缘计算(Mobile Edge Computing,MEC)的云无线接入网(Cloud Radio Access Network,C-RAN)架构能为用户终端提供带宽丰富、可靠性高和时延低的网络接入服务与本地化计算服务,有效地扩展了用户终端的计算能力,是带宽接入技术的关键研究对象之一。然而,多样化的移动业务层出不穷,传统资源分配方式无法满足与日俱增的用户接入请求,导致边缘增强C-RAN中
随着第五代移动通信(5th Generation Mobile Communication,5G)技术的出现,移动到移动(Mobile-to-Mobile,M2M)通信系统朝着信息化、智能化方向飞速发展。由于具有低成本、低时延和较好的信噪比等特点,M2M通信系统中车辆、无人机(Unmanned Aerial Vehicle,UAV)等移动通信端在军事、农业和交通等领域得到广泛应用。但复杂的通信场景
目标跟踪技术作为计算机视觉技术中一个不可或缺的组成部分,在自动驾驶、医疗诊断、智慧交通、国防军事等领域有着广泛的应用,受到了国内外学者的关注与研究。尽管近些年目标跟踪算法已经取得了长足的进步,但是构建一个能够适应形变、旋转、光照、遮挡等众多干扰因素的鲁棒跟踪算法依然是一项极具挑战性的任务。本文以Siam FC孪生网络跟踪框架为基础,从网络结构、多层特征融合、模板更新机制、重校验机制和时空上下文信息
“一带一路”的提出,为沿线国家相互合作、共赢互利提供了平台。虽然“一带一路”沿线国家的平均经济增长率高于世界的平均水平,但是能源使用量和CO2排放量却超过世界平均水平,其中CO2排放量更是占到全球CO2排放总量的近1/2,交通运输的CO2排放量占CO2排放总量的1/4。“一带一路”运输和物流系统的全球可持续发展已提上议程。因此,如何转变成低消耗、低排放与高效率的物流发展模式,实现经济社会发展与生态
第5代移动通信(The 5th Generation Telecommunication,5G)技术已经给我们的生活带来了极大的便利,但用户服务需求日益提高的同时,通信所需的频谱资源和能源也急剧上升。作为近年来快速发展和应用的无线传感网络因其高性能和低成本的优点迅速融入了以5G为中心的新一代无线通信网络中,由于传感节点对电源的过度依赖,如何保证通信的能量效率(Energy Efficiency,E
随着国民经济的飞速发展,现代人的消费观念已经发生很大转变。越来越多的人愿意花钱买“方便”,由此也催生了很多懒人经济下的产物,其中即时配送服务便是最具代表性的新兴产业之一,而外卖服务则是即时配送服务最为典型的服务类型。近年来,众包骑手(接包方)、商家(发包方)与外卖平台间的矛盾频发,外卖平台对众包骑手及商家服务提成的收取问题成为社会热门话题。本文首先通过研究国内主流外卖平台,发现外卖平台以及加入平台