【摘 要】
:
图像描述(Image Captioning)是指计算机对给定图像自动生成简洁的自然语言描述。计算机图像描述能够将图像信息转化为文本信息,从而实现信息不同模态之间的转换,在图像索引、智能教育、(盲人)视觉辅助等各方面具有广阔的应用前景。图像描述是一个多模态学习问题,不仅需要准确地识别对象、属性并捕捉到它们之间的关系,还需要考虑语法的准确性和语义的多样性,因此图像描述的实现需要结合计算机视觉、自然语言
论文部分内容阅读
图像描述(Image Captioning)是指计算机对给定图像自动生成简洁的自然语言描述。计算机图像描述能够将图像信息转化为文本信息,从而实现信息不同模态之间的转换,在图像索引、智能教育、(盲人)视觉辅助等各方面具有广阔的应用前景。图像描述是一个多模态学习问题,不仅需要准确地识别对象、属性并捕捉到它们之间的关系,还需要考虑语法的准确性和语义的多样性,因此图像描述的实现需要结合计算机视觉、自然语言处理、机器学习等领域知识,是一项极具挑战的任务。本文以此为背景,对基于深度学习的图像描述算法进行了相关研究,提出了一种基于上下文的图像描述算法。论文的主要工作如下:(1)为提升网络的特征提取能力,本文提出了一种SENET101网络模型进行图像描述。该模型包括一个用于提取视觉特征的图像编码器和一个用于将视觉特征解码为句子的图像文本生成解码器。图像编码器以Res Net101网络为基础,结合SE(Squeeze-and-Excitation)模块,通过通道注意力机制,实现了图像深层次特征信息提取,为图像描述打下基础。(2)为了突出图像中关于物体类别的特征,本文提出了一种基于上下文的图像描述算法。在SENET101网络提取图像深层次特征的基础上,设计了一种嵌入上下文编码网络的ENCNET(Context Encoding Network)模型,该模型将Res Net101网络提取的图像特征输入Encode编码层,然后将输出的图像特征和SENET101网络提取的图像特征相融合之后,输入解码器中生成图像描述文本。进一步提升了图像描述算法性能。(3)本文引入了强化学习算法。由于模型训练的时候,输入解码器的上一时刻的单词来自训练集的真实单词,而在测试的时候依赖的是自己生成的单词,为此,本文使用SCST(Self-critical Sequence Training)解决了模型训练和测试不一致的问题。为使得生成的图像描述语句之间具有相似性,本文引入了孪生网络,取得了良好的效果。本文在MSCOCO数据集上测试了算法性能,通过对比实验证明了相较于基础模型和其他图像描述算法,基于上下文的图像描述算法取得了最优的性能。该算法在BLEU-1、ROUGE_L、CIDEr得分分别可以达到0.783,0.571及1.176,实验结果表明了论文算法的有效性。
其他文献
头部运动障碍或头部下垂综合征(DHS)在许多运动神经元疾病中十分常见,患者的颈部肌肉发生退行性减弱,使得抬头或移动头部变得十分困难。目前该疾病没有较好的治疗方法,主要使用颈托设备来缓解头部下垂的症状。然而,颈托使得头部的运动受到局限,也不能按照患者想要的移动方向进行调整。因此,研究一种可以实现临床治疗、功能全面、康复机理完善、操作方便的颈椎康复机器人,对于治疗、康复头部下垂综合征有着重要意义。本文
不均衡分类问题在实际生产生活中频繁出现,如生物信息学、电信或金融风险评估和文本分类等。传统分类器由于期望整体精度最大化,常常忽略少数类(样本较少的类别)的分类精度,然而少数类的分类精度往往比多数类(样本较多的类别)更为重要。针对这一问题,一种有效的解决方法是基于数据增强将不均衡数据恢复为均衡数据。这种方法的目标是生成具有较强类判别性和多样性,且真正有助于分类器构建的少数类新样本。然而,在不均衡数据
标记分布学习是一种新的可以用来解决标记多义性问题的学习范式,是对单标记学习和多标记学习的进一步泛化,已经成功应用于人脸情感分析、头部姿态识别以及人脸年龄估计等领域。在标记分布学习的标记集合中,标记间关系广泛存在并且有助于提升标记分布学习性能。因此本文从标记间关系这一角度出发,对标记分布学习展开深入研究。首先,针对局部标记间关系展开研究。当前存在的利用局部标记间关系的算法都服从一个假设,即样本之间的
闭链连杆式移动机器人是一种具有大尺度变形能力,高越障能力的地面移动机器人。目前对闭链连杆式移动机器人的研究主要集中于论证移动的可行性,对于其移动能力及评价体系仅有较少的涉及。本文从平面6R单环运动链的理论研究出发,对平面6R单环运动链为基础构造的闭链连杆式机器人的移动进行数学建模并进行了运动学分析、动力学分析和步态规划,提出6R机器人移动理论,新理论得到了这种运动链连续移动和越障过程的步态通解,并
随着科学技术的发展,各行各业对材料以及结构的安全性要求日益提高。由于材质自身缺陷以及长期受到各种载荷的影响,材料和结构在生产及服役的过程中会产生各种类型的缺陷,比如裂纹、孔洞以及夹杂等,进而导致重大安全事故,造成人员伤亡和巨额财产损失。因此发展有效的无损检测技术至关重要。超声检测技术由于其具有灵敏度高、穿透能力强、缺陷定位准确、操作简单、对人体无害等优点被广泛应用。但是该方法针对复杂形状缺陷的定位
随着跨境贸易的快速发展,商品的协调制度(Harmonization System,HS)编码分类作为企业进出口贸易的重要海关程序,其准确性和高效性越来越受到相关部门的重视。如果能够自动、准确、高效地进行商品HS编码分类,将有助于海关部门通关查验、关税计算等工作的顺利进行,同时也可以帮助企业提高通关效率,降低通关成本。商品HS编码分类任务可以看作是一个文本分类任务,即给定商品的一段描述信息,目标是确
人脸活体检测作为人脸识别系统的重要安全保障环节,近几年在生物识别技术领域中飞速发展,广泛应用于移动支付、门禁系统和金融认证等场景。然而,人脸识别系统容易受到来自打印图像、数码图像以及回放视频等不同方式的攻击,使得人脸识别系统的安全性受到严重的威胁,所以,人脸活体检测在人脸识别系统中起着至关重要的作用,具有重要的研究价值。人脸活体检测在生物识别技术领域中是备受关注的研究方向,但目前仍存在以下几个问题
信号调制方式识别是指在未知调制信息的情况下对接收到信号的调制类型做出正确判断。通信信号调制识别不仅在民用领域意义重大,在军事及国家安全方面也都发挥着至关重要的作用,在电子战中,快速准确地判断出未知信号的调制方式是制胜的关键。在人工智能浪潮下,将机器学习算法与调制识别技术结合已经成为了发展趋势。本论文“基于机器学习的数字信号调制识别及FPGA设计与实现”主要研究基于机器学习的调制识别算法和神经网络的
开放车间调度问题是一种典型的组合优化问题,在制造业、交通和物流等领域被广泛研究。这类问题具有复杂的约束和巨大的解空间,因此求取最优解十分困难。目前,传统算法大都基于特定规则或局部搜索的策略来获得次优解,只适用于解决特定分布的问题,具有较大的局限性。近年来,深度强化学习在解决各类复杂决策问题中展现出较强的适用性和可扩展性,因此,本文基于深度强化学习求解开放车间调度问题。论文的主要工作如下:本文设计并
市政排水管道在城市建设中的应用逐渐增大,但由于地下空间不断开发,管道破损沉降,容易发生管道塌方、地面塌陷等严重情况。为了保障排水管道正常工作,市政工作井然有序,对排水管道进行应急检测具有重要意义。由于排水管道管径大小不一以及管内存在大量易燃易爆的有毒气体,人工下井作业十分困难,因此采用机器人下井完成管道应急检测是十分重要的。目前已有的管道检测机器人大多数只适用于新管道验收,很难适应排水管道这种恶劣