基于深度学习的图像描述自动生成研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:cenghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的20年里,自然语言处理和计算机视觉技术都取得了巨大进步。然而文本和图像的数据形态差异,导致这两个学科的发展相对独立。如今,伴随着移动互联网的快速发展,与日俱增的图文组合数据迫切地需要这两个领域的交叉研究,并因此逐渐形成了一个新的研究方向——跨媒体智能。跨媒体智能衍生出了许多新的研究任务和场景,图像描述自动生成是其中一项重要任务,旨在生成自然语言句子描述图像。近期,深度学习在跨媒体智能领域的研究逐渐深入,图像描述自动生成任务取得了长足的进展。基于深度学习方法的核心是建模一个以图像为条件的语言模型,依托的是一个编码解码的模型结构。然而,图像与句子的语义信息不对称是这一模型结构需要面对的重要问题。现有方法一般通过两种方式缓解这一问题:1)抓住图像的主要内容,通过一个句子描述这幅图像的最主要部分;2)通过多次表达,以多个句子描述图像中的更多细节。本文基于这两条线索,在分析现有方法中存在问题的基础上,开展了一系列研究,主要的工作内容和创新点如下:提出了一种带图像门单元的长短期记忆网络为图像生成单句描述。众所周知,一图胜千言,单个句子只能描述图像的部分信息,因此,生成单个句子描述的模型需要对图像的内容进行选择。作者提出的模型提供了 一种面向特征层面的内容选择方法。通过数据驱动的方式,该模型可以自动学习何时打开或关闭图像门单元,对文本特征和图像特征实现交叉过滤,从而达到特征层面的内容选择。不仅如此,针对基线方法的图像特征随时序过程增加而衰减的问题,设计了脉冲前馈机制,将图像特征以一定频率重新输入给模型,以保证图像特征对长句子生成的监督指导作用。在三个数据集中的实验结果表明,该模型对图像描述性能提升1个百分比左右,实体覆盖率提升2个百分比左右。通过对比多种融合图像特征的方式,表明了图像门单元对融合图像和文本特征的有效性。提出了一种面向主题的多句描述自动生成模型。多句描述的重点在于寻找一种内容选择线索,使不同句子描述图像的不同方面,让描述更加丰富。主题是一种重要而常见的内容线索,为此,作者提出以主题为线索,为图像生成面向不同主题的多句描述。模型基于潜在狄利克莱配置从整个描述数据集中挖掘文本在描述图像时的主题信息。通过将主题表示为主题向量,并作为引导信息加到文本生成模块,可以让模型生成描述特定主题内容的句子。实验表明,通过主题驱动的多句描述模型可以更加充分的利用现有数据集(无须额外标注)生成更丰富和有差异性的图像描述。同时,通过对比多种融合主题向量的方法,表明了本文模型中融合主题向量的方式可以获得更好的主题一致性。提出了一种主题引导的注意力驱动的多句描述自动生成改进模型。尽管面向主题的图像描述自动生成模型提供了一条有效的进行多句生成的方法,但从理论和实验分析都表明其存在几个可以进一步提升的方面,本模型从如下两个方面进行改进:1)基于主题的模型使用词袋构建主题,没有学习到句子中的词序信息。本模型使用循环神经网络,可以保留词序信息,再使用高斯混合模型从循环神经网络获取的连续型特征中学习带词序信息的文本主题;2)使用由主题词构造的主题向量来监督生成描述时,容易出现与图像相关度不高的主题词引导生成出与图像不相关的句子。本模型引入了主题引导的注意力机制,通过比较学习,将不同主题在图像上的不同侧重转换为图像区块特征对不同主题的重要程度。因此,可以直接使用主题引导的图像重组特征进行描述生成,有效避免了生成与图像无关的句子描述。实验表明所提出的模型可以获得更好的多句描述性能和更好的主题一致性。设计并实现了一个图像描述自动生成演示系统。作者基于上述提出的模型,实现了一个可为图像自动生成描述的演示系统。作者设计了网络爬虫收集了大规模服装类图像-标题数据用于系统中模型的训练,该数据为服装描述自动生成任务提供了数据和基线方法。系统提供本地上传和摄像头捕获两种图像输入方式,接收服装类和生活类两类图像,可以通过生成单句和多句两种方式描述图像。为此,作者采用三层结构的浏览器/服务器模式,通过用户界面层、逻辑控制层和图像描述模型层为系统的实时性、可扩展性提供了有效的支撑。
其他文献
介绍了苹果桃蛀果蛾的为害症状与发生规律,提出了其生物防治技术,以期为苹果桃蛀果蛾的防治提供参考。
从品种选择、播期选择、培育壮苗、科学定植、田间管理、病虫害防治、采收等方面介绍沿淮地区秋延辣椒无公害栽培技术,以期为秋延辣椒的种植提供技术参考。
现有的粒子群优化(PSO)算法和遗传算法(GA)无法很好地解决高光谱影像端元提取这类离散解空间内的大规模取样优化问题。针对该问题,借鉴凸面几何学理论,利用局部模式粒子群优化的
提出分形布朗运动(FBM)模型,将其应用于多媒体通信流特性分析。通过NS仿真实验得到有线网络和动态无线网络下的多媒体通信流,研究2种通信流的自相关系数、概率特性和突发性,结
提出一种基于邻域特征和聚类的图像分割方法。该方法提取像素点的5维邻域特征,利用渐进聚类方法使同类元素具有较高的相似度、不同类元素相似度差别较大,从而对图像中的像素进行归类划分,实现目标图像的正确分割。实验结果表明,该方法能准确定位图像边缘,具有较强的抗噪性和较高的分割精度。
采取扦插育苗和人工造林的方式进行南方红豆杉培育生产,具有成本低、见效快等优点。对南方红豆杉扦插育苗与造林技术进行了介绍,以期促进南方红豆杉的大面积推广。
当前,我国物流业处于快速增长期,对于提高国民经济增长质量和效益的作用日益明显。但是,物流业发展面临着许多问题:物流成本居高不下,物流效率低,物流市场散乱,物流企业散、小
环化酶1(Butelase 1)是最新发现的一种特异性天冬氨酸/氨酰多肽连接酶,既具有蛋白酶切割的特异性功能,也能够作为多肽连接酶高效催化来源于多种有机体的线性肽和蛋白质环化形成
本文主要研究投射半模内射半模平坦半模等几类重要半模的一些性质及模的反向极限问题,全文分为三部分.第一章给出本文所需要的基本概念和结论.第二章在[10]和[15]的基础上,证
文中通过对建筑工程中暖通空调节能技术应用意义进行了分析,通过对我国建筑工程暖通空调技术当中存在的水凝结问题、节能设计以及空调水循环问题进行了分析,提出了暖通空调技