深度学习下的影像识别研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 1次 | 上传用户：jshajhb1

【摘要】

：

随着多媒体技术和互联网技术的发展,日常生活中包含图像、视频等形式在内的影像内容规模已经越来越大。在浩如烟海的影像数据中,人们感兴趣的往往是其中包含的语义目标。这些

【作者】

：

祁雷

【出处】

：

中国科学院大学(中国科学院西安光学精密机械研究所)

【发表日期】

：

2019年01期

【关键词】

：

深度学习神经网络设计参数学习行为识别精细图像识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着多媒体技术和互联网技术的发展,日常生活中包含图像、视频等形式在内的影像内容规模已经越来越大。在浩如烟海的影像数据中,人们感兴趣的往往是其中包含的语义目标。这些语义目标可以是一个物体,也可以是一种行为。利用计算机从浩如烟海的影像内容中识别出人类感兴趣的语义目标,这就是影像识别的工作重点。作为计算机视觉领域的一个基础任务,影像识别技术在安防监控、智能交通、人机交互等领域均有着广泛的应用。影像识别技术通过对影像数据进行预处理,设计影像特征,并在影像特征的基础上学习分类模型来完成对影像中目标类别的判断。经过多年发展,研究者们已经提出了多种影像识别算法,将影像识别问题从最初简单的手写字符识别,拓展到如今更复杂的目标识别、场景理解、行为分析等任务,并将影像识别技术成功的应用到各个领域。深度学习下的影像识别指的是利用深度学习技术,对影像内容中感兴趣目标的类别进行有效判断。与传统基于手工设计特征的方法相比,深度学习下的影像识别因为能够通过训练深度神经网络自动地从数据中学习特征,因而具有更强的数据自适应性,往往也能获得更高的识别精度。近年来,研究者们针对不同的任务场景,主要从判别性信息提取、网络结构设计、模型参数学习三个方面开展了影像识别问题的研究,提出了许多有效的影像识别算法。然而,随着影像数据量的急速增加,以及识别任务的逐渐精细复杂化,目前的影像识别算法仍面临着以下问题:1)影像中包含着大量冗余、无用的数据;这使得算法难以关注到与识别任务最相关的判别性信息,从而不能获得理想的识别性能;2)现有深度神经网络结构缺乏对图像中不同区域之间空间关系的有效利用;3)目前的深度神经网络参数学习方法主要针对网络本身进行优化,忽略了对图像中不同区域语义性分布不均匀这一特性的考虑;4)目前的分类器学习算法依赖于影像特征的质量,缺乏对影像特征中噪声的鲁棒性。因此,研究深度学习下的影像识别问题不仅具有意义,而且也具有很强的挑战性。本文针对上述问题开展了四个方面的研究,主要的研究内容和贡献如下:(1)基于运动轨迹和视频语义块的行为识别算法。作为一种常见的影像数据,视频中包含着大量的冗余、无关数据。如果将所有的冗余、无关数据全部输入深度神经网络模型进行训练,不仅会增大训练的难度,而且会降低识别的精度。本文针对这个问题,从判别性信息提取的角度,假设视频中与行为最相关的是轨迹信息和视频语义块信息。其中,轨迹反映了细微运动信息,而视频语义块反映了行为主体、运动场景的等语义目标信息。利用深度神经网络提取轨迹和视频语义块的特征,从而最大程度的剔除与最终识别无关的冗余信息。在两个公开数据集上进行了验证,证明了基于运动轨迹和视频语义块的行为识别方法可以有效提高识别精度。(2)基于空间关系的精细图像识别算法。影像数据中不同类别目标之间往往具有着高类间相似性,这在精细图像识别任务上尤其明显。与传统图像识别任务不同,精细图像识别任务中不同种类的目标彼此之间在外观、轮廓等方面高度相似。针对这个问题,提出利用目标部位之间的空间关系作为新的判别依据。与外观、轮廓等在不同类别间容易混淆的特征不同,目标不同部位之间的空间关系反映的是目标自身的局部关联信息,往往具有类本身的独立性,从而可以增强算法对不同类别目标之间的区分能力。然而现有深度神经结构并不能有效利用空间关系,因此在现有卷积神经网络的基础上,引入空间关系选择层和图像表达层,从深度神经网络结构设计的角度缓解了高类间相似性带来的类别判断容易混淆的问题。此外,本文也分析了引入空间关系之后算法的时间效率。(3)基于判别性网络学习的精细图像识别算法。在精细图像识别任务中,不同类别目标图像之间的区别往往隐藏在少数目标关键部位所在的区域。然而,目前大部分深度神经网络训练方法主要是针对网络进行研究,而对作为网络输入的图像的这一内在特性缺乏重视。针对这个问题,本研究提出一种基于判别性网络学习的精细图像识别算法。该算法首先利用基于空间相似性的谱聚类从图像中提取关键目标部位,其次在每次训练的过程中,随机的遮挡关键目标部位,最后通过最小化损失函数来训练网络模型,使其能够从未被遮挡的目标部位中学习到更多的判别信息。本方法进行了两组对比试验,分别验证了提取关键目标部位的作用以及基于目标部位遮挡的深度神经网络训练方法对识别精度的影响。(4)基于联合学习的视频行为识别算法。在传统的视频识别任务中,分类器往往是在给定影像特征的情况下训练得到的。这样做的缺点在于给定的特征不一定对当前分类器是最优的,因此也就难以训练出性能最优的分类器。本研究针对此问题,将特征优化引入分类器训练过程,在训练分类器的同时对特征进一步的优化,以此得到更优的特征和分类器。具体来说,本研究在传统的分类器训练过程中引入稀疏编码模型,在训练阶段,将稀疏编码和分类器的损失结合在一起,同时优化损失得到稀疏编码所需要的字典和分类器的参数。稀疏编码后的特征不仅更加紧致,而且因为联合了分类器的损失,也更加具有针对性。本方法在两个视频数据集上进行了测试,实验结果证明联合学习的思路可以得到更有判别性的特征和分类器,也因此提高了整体的识别精度。

其他文献

中国投资者识别股权众筹项目质量的能力分析

发展股权众筹和探索股票发行注册制是我国完善资本市场的重要举措,但是目前还未有从微观角度探究股权发行信息披露制度下投资者基础的研究。本文利用“人人投”股权众筹平台

学位

股权众筹投资者识别信息不对称注册制

音乐与影像的共舞——浅析电影《指环王》的主题音乐

史诗巨片《指环王》自放映以来横扫票房纪录,连续夺得11个奖项,与《宾虚》《泰坦尼克号》一起,并列成为奥斯卡史上获奖最多的影片。其音乐是由世界著名的作曲家霍华德.肖创作

期刊

《指环王》音乐画面心理内涵

部编本教材推广背景下应如何提升小学生写作素养

作文教学是语文教学的重要环节,是培养学生语文素养的重要一环。部编本教材的科学性、时代性等特点,使得教材在推广的过程中获得了广大教师的一致好评。但是由于一些地区还没

期刊

部编本教材提升写作素养

江西金盆山林区米槠生长过程与幼林生长效应

进行样地调查与树干解析,以研究米槠生长过程。采用米槠容器苗和裸根苗造林,比较造林保存率、胸径、树高、冠幅、变异系数等指标,以了解两种苗木的幼林生长效应,并比较天然林

期刊

金盆山米槠生长过程幼林生长效应

用假设法巧解百分数应用题

最近引导学生复习应用题中，发现解较复杂的百分数应用题时，学生对有些题无从入手。我经过认真仔细思考．分析发现此类应用题可以采用假设法来解。以前在杂志上曾见过用假设法巧解

期刊

假设法百分数分数应用题

给学生尊重呈精彩课堂——“百分数应用题”教学片断及反思

“既要重视学习知识的结果，更要重视获取知识的过程”这一教育理念，已成为广大教师的其识。越来越多的教师在课堂中实践着这一理念，努力让学生不仅知其然，而且知其所以然，使学生在

期刊

分数应用题教学片断精彩课堂

夏季南黄海叶绿素a分布特征及环境因子的影响研究

本文根据2008年夏季南黄海海域生态研究资料,分析了南黄海海区叶绿素a空间分布特征和环境因子的分布特征。根据历史资料,结合本次研究海区的环境因子特征,将研究海区分为长江

学位

叶绿素a水团南黄海浮游植物环境因子营养盐SCM海洋锋

巧问,让教学走向高效——《百分数应用题》教学片段及反思

教学片段扫描这是一位老师在执教六（上）教学“一个数比另一个数多（少）百分之几的分数应用题”时的一个教学片段。出示条件：本学期。我们602班在校就餐的男生有25人．女生有20人。

期刊

教学片段分数应用题《百分数应用题》

三元硫属化合物的结构调控及在能量转换中的应用

无机功能材料的研究以及应用推动了科技的发展进步,然而大多数材料的本征特性并不足以满足实际产业应用和需求,故而在开发相对有效的无机功能材料同时需要通过人工有针对性的

学位

结构调控电学/热学输运能量转换材料

我国西部地区基础设施投资的经济增长效应测度研究

目前全球视角下各国基础设施投资需求均呈现出强劲态势。在我国经济转型和现代化建设进程中,全方位基础设施和互联互通建设有助于开拓经济增长的新动力。从国家的重大战略和

学位

基础设施投资经济增长面板VAR空间面板模型

深度学习下的影像识别研究

与本文相关的学术论文