基于深度学习的图像标注技术研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:fugh824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像自动标注就是一种将图片内容映射为对应的自然语言描述的技术,具有重要应用价值。比如,可帮助视力缺陷者更好地理解周围的环境从而替代导盲犬的工作以及可以帮助幼儿看图识字等等。当前对图像标注的研究大多数是基于Encoder-Decoder框架,它通常涉及两个关键点:一个是图像特征的提取,另一个就是提取的视觉特征解码,生成对应语句描述。本文研究并对经典模型进行了改进,主要工作包括:(1)针对当前存在的注意力机制在图像区域权重分配策略不当、图像特征存在过多冗余信息的问题,本文提出了一种基于Faster R-CNN框架的改进方法来提取图像的目标区域特征。对比实验证实,此方法提取到的带属性描述的目标区域特征对标注的生成性能有很大提升。(2)传统Attention机制没有考虑Q和K或者V是否相关,如果不相关可能会对模型的生成结果产生误导。为了解决该问题,本文提出了一种修正的Attention策略,并基于Transformer架构,提出了一种基于Multi-Head Attention的优化框架。提出的这种优化框架能够成功修正传统Attention机制的不足,改善模型在图像标注评价指标上的表现。(3)目前的标注模型很少考虑注意力本身潜在的连贯性。针对此情况,本文在两层Up-Down模型上进行改进,提出了一种基于注意力连贯性机制的CA-LSTM图像标注模型。实验表明,本文提出的这种新模型比传统Up-Down能更快、更准确地生成句子描述。它充分挖掘了注意力潜在的连贯性,因此在进行推断时可以显著减小曝光偏差等问题。
其他文献
基于苹果树冠层截留的观测数据,研究了苹果树的冠层截留特征。结果表明,①果树冠层截留量、穿透雨量、树干茎流量均与降雨量有着明显的相关性。冠层截留量与降雨量之间呈对数
研学旅行是深化基础教育综合改革、推进素质教育深化发展的重要举措。通过研学旅行,引导学生走出校门、走向社会,将研究性学习和旅行体验相结合,是学校教育和校外教育衔接的
本刊讯2006年8月24日,转型时期的房地产融资渠道解析会暨五合智库《2006中国房地产投资报告》发布在美洲俱乐部隆重举行。
期刊
桩基础由于具有抗震性能好,沉降量小和承载力高、可以解决特殊地基土的承栽力的优点,越来越受到人们的青睐。本文简要介绍了常用的几种桩基检测技术,对桩基质量做出评价,以确保建
中高功率光纤激光器在高端智能制造领域的应用前景非常广阔,目前已经部分替代其他类型的激光器,应用于切割、焊接、清洁、除锈、钻孔、3D打印等制造加工领域。随着“中国制造
目的探讨经导管向血栓内注射微泡和尿激酶后超声溶栓的体外实验中,不同声压和占空比对溶栓效果的影响。方法制备稀释的超声微泡并组装体外实验设备。将90份新鲜人血血栓样本
调试ASP.NET可能比较困难。因为帐户的配置和相互影响可能导致中断很多不同的步骤。本文列出了与调试ASP.NET应用程序相关的一些最常见的问题,给出了一些错误的例子。并解释了如
伴随着智能电网系统的升级换代,电网规模日趋庞大,电网结构愈加复杂,智能电网的故障诊断与继电保护技术越发显得重要。当大规模智能电网系统发生复杂或多重故障时,仅靠单个系
党的十九大报告明确提出“必须坚持质量第一、效益优先,以供给侧结构性改革为主线,推动经济发展质量变革、效率变革、动力变革,提高全要素生产率。”中共中央、国务院印发的