【摘 要】
:
图像语义理解是计算机视觉,自然语言处理和机器学习领域中的一个基础问题。目的是将图片转换成一句能描述图片中对象及对象之间关系的句子。将复杂的图像特征转化为简单的语言描述在图像分类、图像检索、图像动作识别等领域中有较广泛的应用前景。近来,许多方法采用编码-解码框架,在训练阶段,使用当前时刻状态和前一时刻的目标单词预测当前的目标单词。在预测阶段,由于上一时刻的目标单词并不确定,而使用上一时刻模型输出的单
论文部分内容阅读
图像语义理解是计算机视觉,自然语言处理和机器学习领域中的一个基础问题。目的是将图片转换成一句能描述图片中对象及对象之间关系的句子。将复杂的图像特征转化为简单的语言描述在图像分类、图像检索、图像动作识别等领域中有较广泛的应用前景。近来,许多方法采用编码-解码框架,在训练阶段,使用当前时刻状态和前一时刻的目标单词预测当前的目标单词。在预测阶段,由于上一时刻的目标单词并不确定,而使用上一时刻模型输出的单词作为当前时刻的输入,造成了训练与预测阶段的不一致。当某一时刻生成的单词不够准确时,可能导致之后生成的单词有所偏差。因此,本文主要进行以下内容的研究:(1)由于编码-解码框架中存在训练和预测过程不一致的问题,本文分析了该问题对循环神经网络和注意力机制产生的影响,并提出了自动限制损失方法。该方法不同于将循环神经网络中每个时刻的损失简单相加,而是为每个时刻的损失设置了权重,使当前时刻的损失权重随着之前时刻单词错误率的减小而增加,从而减小了训练阶段和预测阶段的差异。(2)在自动限制损失方法中,采用之前时刻单词的准确率控制之后时刻单词的损失权重,可能会忽略之前时刻目标单词的近义词或同义词对损失权重更新产生的影响,因此本文在训练阶段计算每个时刻的损失权重时,不仅考虑之前时刻目标单词的准确程度,也计算之前时刻模型生成的概率分布与目标单词的相似度,从而进一步提高了自动限制损失方法对于图像语义理解的效果(3)在MSCOCO数据集上对本文方法进行了测试,实验结果表明:相对传统最大似然方法,本文方法取得了更好的效果,并能使注意力机制关注的图像区域更著准确。
其他文献
对于森林来说,火灾是主要的灾难之一。森林内的可燃物作为森林火灾的物质条件,其中地表凋落物是森林内可燃物的主要组成成分。吉林省长白山林区植物种类十分丰富,由于气候变
数字图像分析是数字图像处理的理论基础,而数字空间的结构对建立数字图像分析理论具有关键性作用.在数字空间中通过引入拓扑结构建立邻接关系是数字图像分析中有效的方法,同时数字图像的连通性是数字图像分析中重要的问题.本文在预备知识部分介绍了数字空间中Κ-乘积拓扑、Κ-拓扑范畴(简称ΚTC)、Κ-邻接范畴(简称ΚAC)等概念,并分析了具有-乘积拓扑的二维和三维数字空间中像素的最小开邻域和邻接邻域的结构.在此
聚合物基纳米复合介电材料具有优异介电性能的同时还能保持良好的机械性能,被广泛应用于柔性电子、新型显示、生物工程等领域。本文以聚二甲基硅氧烷(polydimethylsiloxane,简称PDMS)为聚合物基体,银纳米线(silver nanowires,简称AgNWs)为填充相的主体,通过引入过渡层防止导电网络形成的方式制备出三种核—壳(core@shell)结构的复合材料:AgNWs@SiO2、
新疆野果林位于天山伊犁河谷地区,建群树种为新疆野苹果。苹果小吉丁主要危害蔷薇科果树,该虫已在新疆野果林蔓延,大面积为害新疆野苹果林苹果、梨、桃、樱桃、沙果、花红、
记录日志是软件开发过程中一种普遍的代码实践,目的是收集软件系统运行时的重要信息,这些信息在软件系统的跟踪调试、缺陷排查、性能优化、重要业务信息备案等工作中都有不可
随着面向服务体系结构(SOA)的普及,Web服务数量正在迅速增加,同时导致Internet上存在许多功能类似的服务。这种情况使得用户难以针对给定的应用环境选择期望的Web服务。先前
再制造技术是将废旧产品中不能使用的零部件通过先进的表面技术,在损伤表面制备熔覆层,使其质量达到或超过原有性能。目前应用于大马力、大扭矩重载车辆中的重载发动机缸盖,
随风力发电技术的完备,风力发电已经成为一种易开发、可再生、绿色环保的发电方式。齿轮传动系统作为风力发电机系统中重要部件。因齿轮传动系统工况复杂、高空布置、故障率
实际工程中岩体的裂隙往往是交叉不等长的,且其对于整个岩体的力学特性以及损伤规律有着重要的影响。而在实际工程中,岩体在承受静力荷载的同时,也承受着不同特性循环荷载的
近年来国家监管部门对证券公司发展的政策不断调整,同时允许民营资本和外资注入,使得竞争进入白热化状态。截止到2016年底,正规经营的证券公司达到129家,佣金费率的持续下降