基于神经网络的图像语义描述研究

来源 :华北电力大学(保定)   | 被引量 : 0次 | 上传用户:zgrgyj1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义描述,顾名思义,就是希望计算机能够理解输入图片的语义,并且组织合适的语言将它描述出来。这一任务是计算机视觉与自然语言处理两个领域结合的交叉任务。对于人类而言,这并不困难,但是对于计算机而言,这无疑是一项非常具有挑战性的任务。在现实生活中,该研究在交互设计、视频标注等领域有非常大的应用价值。传统的研究方法,如基于模板,基于检索等方法,往往特别复杂,需要大量的人力与物力设计模板、提取特征,并且最终生成的描述语句句式死板,不够灵活。得益于近年来兴起的深度学习研究,神经网络能自动提取特征的能力重新被人们认识。基于神经网络的方法为该任务提供了新的思路。本文在总结前人的研究基础上,借助深度神经网络以及深度学习框架Keras,构造了一个基于Encoder-Decoder架构的图像语义描述模型。该模型成功地跨越了不同模态间的语义鸿沟,实现了从视觉到文本的模态转换。
  本文的主要工作同模型的架构一样也分为两部分:在负责提取图像特征的编码器部分,本文采用卷积神经网络从图像中提取特征,并且设计了一套注意力策略,负责对这些特征进行筛选,使得蕴含语义信息最多的特征可以直接被解码器看到,从而使生成的描述文本用词更加准确;在负责文本生成的解码器部分,本文采用改进的LSTM网络进行文本生成。本文仿照残差网络中的残差连接的方式对传统的LSTM网络加以改进,使其在生成文本时可以看到全部的上文信息。改进的LSTM网络生成的文本语法更符合规范,更接近人类语言。
  本文使用Python编程语言实现了上面提到的图像语义描述模型,并且在MSCOCO数据上进行了实验。通过设置不同的对照试验,验证了本文所做出的改进的有效性。本文也将该模型与目前主流的图像语义描述模型进行了对比,结果显示本文的模型表现总体尚可,在用词准确性以及语法的规范性上表现非常出色。
其他文献
电动汽车接入电网就是通过电动汽车与电网之间双向的的信息流和电力流的互换,采用先进的信息、通信技术将孤立的电动汽车和电网连接起来,使电动汽车参与到需求侧管理中,起到“削峰填谷”的作用。而在电动汽车接入电网的过程中,电动汽车用户会与电网进行双向的信息流交换,而这些信息一般会包含电动汽车用户的位置隐私、身份隐私以及电价信息、规划的充电路径等,而这些信息一旦被非法分子攻击就可能会造成用户信息被追踪、泄露或
学位
V2G
随着深度学习的快速发展,基于大量样本的数据分类取得了重要进展,在很多数据集上,已经超越了人类的识别水平。但是,现实中很多问题的样本数量是极为稀少或者场景难以复现,用于训练的数据非常稀少,传统的深度学习方式在这种情况下效果并不理想。而贝叶斯学习可以利用参数的先验分布和少量样本来估计后验分布,实现小样本条件下机器学习。本文主要基于贝叶斯学习与深度学习结合的贝叶斯变分自编码器网络,从数据增强和神经网络搭
学位
由于航空、医疗、自动驾驶等图像数据集中小目标分辨率低,方向错乱,背景复杂等问题,大多数目标检测算法的特征图尺度单一,不能有效融合特征语义信息,且特征提取网络经过多次采样后产生误差,损失图像中小目标的边缘特征信息,造成其识别率低,误检漏检等问题。为解决SSD(Single Shot MultiBox Detector)模型中小目标特征信息不足的缺陷,本文提出反卷积和特征融合的方法。首先针对SSD底层
当今,随着信息数量快速增长,信息过载问题越来越显著。推荐系统是解决这一问题的重要方法,可以帮助用户从大量的数据中找到可有效利用的信息,从而缓解信息过载问题。现在,大多数电子商务和社交网站等在线服务中都使用了推荐引擎向其用户显示推荐用户感兴趣的项目。YouTube上60%的视频播放量来自其主页推荐,而Netflix用户观看量的80%也来自其推荐系统。此外,推荐系统为亚马逊公司增加了35%的利润。因此
学位
随着计算机技术快速发展,愈来愈多的网络用户通过社交平台表达对特定事物的看法。这些评论语料中蕴含大量的个人情感色彩,对这些内容加以分析利用,对预测商业形势以及社会发展态势有重要价值,这也促进了情感分析领域的发展。  对情感分析的主流方法分析如下:基于情感词典方法,该方法需要人为构建情感词典,词典构建的全面与否对准确率有很大影响。基于传统机器学习的方法,需要人工对语料进行标注,随后人工设计特征,最后使
学位
三维重建一直是计算机视觉研究的主要方向之一,而如何从单幅图像重建得到三维模型更是学者们一直探索的问题。针对该问题,最理想的目标是能够模拟人的视觉感受,从看到的单幅RGB图像中进行联想,依靠一生中获得的先验知识来进行推断,得到合适的三维模型。而随着深度学习的应用发展以及三维CAD数据集的不断完善,基于深度学习的三维重建方法也取得了突破性进展。针对深度学习三维重建中存在的二维特征提取、特征转换等问题,
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人领域的一个热门研究课题,也是其关键技术,具有非常可观的应用场景。近年来,基于特征点的视觉SLAM方案已比较成熟,然而在特征点稀少或分布不均匀的情况下,这种算法的性能会急剧下降,为此,本文提出了多特征融合,结合点和线段。基于滤波器方法的视觉SLAM算法存在计算复杂度高、环境存储空间负荷大
学位
随着人们物质生活的极大满足,人们的精神需求也在日益增长,虚拟现实等新兴技术正逐步贴近人们的生活。虽然现今的虚拟现实系统已实现了“沉浸”与“交互”,但其关于“构想”概念的定义依然很模糊。对此,本文提出了约束的概念,认为“构想”的第一步是对事物施加一定的约束,第二步则是依据统一的世界约束将不同的事物连接起来。对于作为基本约束的物理约束和路径约束的研究由此展开。同时,考虑到基于物理的流体控制在自然现象模
学位
近年来,区块链技术受到了国内外的广泛关注。比特币的核心底层技术就是使用的区块链,首次由一名化名为中本聪的学者于2008年提出。区块链最主要的特性是去中心化、去信任化、集体维护、安全性和不可篡改性,逐渐被应用于多个领域,如智慧城市、医疗信息安全管理、组织管理、市场预测。目前关于区块链安全性的研究大多集中在攻击方式的变种,对于如何防御攻击较少,因此本文关于区块链矿池安全的研究具有重要意义。在比特币刚被
学位
目前,我国国内几千年文化积淀的文化旅游资源非常丰富,在文化旅游与现代技术的结合中,虽然已经将大部分文化内容转换为数字化存储,但其与大数据的结合应用还较少,面临着丰富的数字内容而用户所得却较少的矛盾,亟需标注并整理好的文化内容数据集,以及相适应的大数据算法,来通过大数据技术精准的解决广大群众日益增长的文化需求,因此中国文化内容相关的基于内容图像检索问题研究具有重要的意义。  本文在文化旅游课题下,针
学位