基于深度学习的场景识别算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhaobaodong2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大规模数据集、专业化的硬件、新的算法的出现,深度学习,特别是深度卷积神经网络在图像识别领域达到了接近人类水平的语义分类能力。在深度学习的背景下,场景识别旨在推理出给定图像中物体所在的场景或地点,通过在场景数据集上训练卷积神经网络以学习场景图像的表示模式进而从语义层面上对图像进行高度准确的概括。应用深度学习进行场景识别时主要存在三个问题:一是网络在场景识别上的准确率不及图像分类等其它视觉任务;二是网络受限于训练数据的空间表示重心,忽略了场景中的上下文信息;三是网络通过增加容量提高的准确率并没有随着网络容量增加而线性增加。本文是以基于深度学习的场景识别算法为研究课题,重点研究了网络轻量化和物体语义特征对场景识别的影响,主要研究内容分为三部分。本文首先对几种经典的卷积神经网络在网络参数量、模型大小、网络深度、识别准确率等方面进行了分析和比较,提出了网络轻量化的改进方案。通过使用通道分离卷积替代标准卷积以及对网络内部的重新调整,在地点20-RGB场景数据集上评估了方案的有效性。实验结果验证了网络轻量化在显著减少场景识别网络的参数量的同时提高了场景的识别准确率。然后本文从另一个角度研究了语义数据集对场景识别的影响。利用语义分割网络对彩色RGB图像的像素级分类能力,对地点20-RGB场景数据集应用语义分割得到对应的地点20-语义数据集。使用语义关系提取网络在该数据集上训练用于场景识别。实验结果显示单独使用基于语义数据集训练的网络在场景识别上的准确率明显低于基于彩色RGB图像训练的网络,但语义数据集能提供一种互补的物体语义信息作为场景识别的额外特征。本文最后研究了一种多模态深度学习架构,该架构使用双支网络同时结合RGB分支和语义分支分别提取场景的图像信息和物体上下文信息。利用在训练过程中形成的注意力机制,加强相关上下文信息的学习。基于该多模态深度学习架构,本文提出一种扩增其注意力范围的方法。该方法通过改进现有架构中的语义分支注意力模块,利用提供的空间和通道关系引导网络的注意力,加强了语义特征源注意力的形成。在与轻量化改进结合后形成基于语义注意力的双支多模场景识别网络,进一步完善了场景识别的特征表示。实验结果显示,该网络在地点20-RGB场景数据集上实现了较好的识别准确率。
其他文献
止水针头目前大量用于建筑等防水堵漏领域,但是现阶段仍然靠人工进行装配。每个止水针头中都有两个较薄较小的垫片,人工从垫片盒中的大堆垫片中拿取垫片费时且枯燥乏味,效率低下,难免出现错误,且现在人工成本逐年提高。研发一款自动化装配设备以提高止水针头的装配效率,降低用工成本成了当务之急。本文针对自动化装配的工艺流程进行研究,参考人工组装时的步骤和流程,根据企业的实际需求,设计了止水针头自动化装配设备的流程
通过对宁夏回族自治区区域铁路路网分析及客流预测,重点探讨自治区城际轨道交通发展规划,提出“一核一轴两带”的线网规划原则及规划实施方案。
当前共享经济不断发展,获得了较大的成功,特别是在交通方面发生了很大变化,从网约车发展到现在的共享单车,通过多样的创新理念以及全新的平台,让共享经济得到了极大的发展,不
近年来,我国社会飞速进步,能源消耗不断增加,我们的生态环境危机也随之日渐严峻,政府与社会愈加注重节能减排,提倡绿色低碳发展。楼宇照明系统用电量在楼宇能源消耗量中占很
返还原物请求权作为物权请求权的重要类型,关于其是否应当适用诉讼时效、如何适用诉讼时效一直以来存有争议。在理论学界概括形成“肯定说”、“否定说”、“区别适用说”三
为了改善轻量化的GD190单缸短行程直喷式柴油机的工作性能,建立了三维动态CFD模型并进行了模拟计算,重点分析了喷油器的安装深度,以及油束夹角对缸内气流运动的影响。计算结
超空泡航行体在巡航阶段,只有头部的空化器和后面的尾舵与水接触。空泡的存在使得航行体与外界的相互作用变得十分复杂。在竖直面内,航行体尾部与空泡壁的上下尾拍作用具有强
我是一个喜欢旅游的人,一有空闲便会驾车出游,无论是城市周边,还是海边、草原,几乎都有我的足迹。朋友们都说我有一颗不安分的心,总想着逃离现实到梦想中去生活,可是事实上并非如此
NJ2型机车一系弹簧横向刚度过小,不能有效抑制轮对的横向振动。通过在转向架构架和端轴电机间加装横向拉杆,提高轮对横向等效定位刚度,可有效抑制轮对的横向振动。分析在转向架
惊闻黄贻钧先生忽然不幸逝世,十分伤心。今年三、四月间,我在华东医院住院时,还特意到他的病房看望他,我和老伴姜瑞芝还跟他一起照了像。他说他正在写回忆录,特别是上海交响