【摘 要】
:
图像描述生成旨在为给定的图像生成相应的自然语言文字描述。图像描述生成涉及计算机视觉和自然语言处理领域,具有很强的挑战性。近年来,基于深度神经网络的图像描述生成方法
论文部分内容阅读
图像描述生成旨在为给定的图像生成相应的自然语言文字描述。图像描述生成涉及计算机视觉和自然语言处理领域,具有很强的挑战性。近年来,基于深度神经网络的图像描述生成方法虽已取得极大进展,然而现有方法仍无法避免因图像高层语义的缺失而造成的描述文本不准确不自然等问题。因此,本文结合图像的高层语义信息,研究图像描述生成的方法和技术。本文的主要工作如下:(1)基于神经网络的编码-解码模型虽能依赖大规模训练集学习到编码后的图像特征与解码生成的描述文本之间的关联关系,但仍无法避免生成的描述存在语义缺失、语义错误等缺陷。针对此问题,本文在经典的编码-解码模型基础上进行了改进,提出了一种融合高层语义再生成的图像描述生成模型,即先利用Faster R-CNN检测出图像中的高层语义词,再通过注意力机制将高层语义信息融入到网络模型中,对初始图像描述进行再生成。实验结果表明,融合高层语义信息有助于改善图像描述文本的质量。(2)研究发现,人对图像进行描述时,不仅依赖自身的语言水平,还依赖图像内容中未明显包含的常识性知识,而现有的图像描述生成模型很少能充分利用这类常识性知识。针对此问题,本文提出一种基于图像高层语义引入外部知识的图像描述生成模型。该模型根据图像的高层语义信息获取与图像相关的外部知识,之后通过注意力机制,将获取到的相关外部知识融入到网络模型中,从而生成更好的图像描述文本。实验结果验证了该模型的有效性。
其他文献
新加坡是一个多民族的移民社会,在这短短的几十年间从一个面积狭小的岛国如凤凰涅槃般在东南亚崛起,一跃完成了从“第三世界到第一世界”的飞跃,赢得世人的瞩目。从当前新加
目前,有关螺旋桨正车前进工作模式下常规性能的研究,如噪声、空化等,已经取得很大的进展;但涉及螺旋桨在前进倒车(紧急倒车)工作模式下的研究内容较少也不够深入。紧急倒车时来流的“负”攻角会在桨叶的导边附近引起大量的流动分离,造成螺旋桨推力和转矩的剧烈变化,可能威胁螺旋桨安全稳定的工作;另外,侧向力也会影响舰艇操纵性。本文总结分析前人的研究成果,然后,结合基于大涡模拟(LES)的CFD数值仿真方法和有限
随着雷达探测技术的不断发展,现代国防对雷达隐身技术的要求越来越高,而传统单一机理的雷达隐身表面的性能存在天然局限,难以满足日益苛刻的隐身技术需求。对此本文研究了新
微弱信号检测技术主要针对被强背景噪声掩盖的弱信号,应用广泛,涉及到故障信号诊断、语音识别、生物医学等领域,发展至今已受到大量学者关注。但传统的检测技术研究核心是怎
近年来人脸检测技术在研究人员的不懈努力下已经得到了快速发展,然而与实际应用的需求还有较大的差距。在非约束条件下,由于受到拍照姿势,成像距离以及光照等影响,我们获取到
随着中国经济总量的快速增长,供给过剩与供给不足并存、需求下降与需求外移并存等供需结构失衡问题凸显,其实质是供给结构与市场需求脱节造成的供给失灵。已有文献表明,均衡
检察机关提起的环境民事公益诉讼经试点后已得到《民事诉讼法》的肯认。本文探析的证明责任规则是诉讼制度的核心问题之一,关乎诉讼胜败和司法公正。检察环境民事公益诉讼的
武术是中华传统体育的文化瑰宝,地方拳种是中国武术的典型代表。2014年,河南省体育局和教育厅发布《关于发扬民族传统体育进一步加强校园武术工作的通知》,要求在校园内加大
压疮是一种由于骨头突起处的皮肤组织层受到持续的压力而产生的临床常见病,长期卧床的病人若没有经常翻身则容易患上压疮。压疮的发展通常分为四个阶段,但只有第一个阶段的压
近年来,基于分层制造原理迅速发展起来的生物三维(3D)打印技术,为组织器官再生和临床修复治疗等生物医学领域带来了新的研究思路与解决方案。3D打印技术所用的生物墨水必须具