基于神经网络的图像语义识别算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:iuonake5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机视觉领域,图像语义识别(Semantic Recognition)是一项重要的图像理解任务,它是指利用计算机对图像进行处理、分析和理解,其主要包括语义分类、语义检测及语义分割等任务。在一定程度上,图像语义识别已成为计算机视觉领域各项研究与应用的基础——三维重建、人脸识别、“看图说话”等研究都把它作为基础的理论支持,而无人驾驶、无人机的广泛应用更是得益于该领域成熟的研究。  总体而言,面向图像语义识别的研究大致分为两个阶段:前深度学习时代经典的图像识别算法和深度学习时代基于神经网络的识别算法。近些年来,随着GPU硬件的发展以及大规模数据的标注,以深度学习为基础的图像语义识别技术取得了巨大的成功,网络大大克服了经典算法识别精度低的缺点,然而,现有算法仍然存在很多不足:样本标注花费了大量的人力物力、网络迁移能力弱并且功能单一。因此,本文针对上述三点不足,对现有的方法进行了深入研究,并分别从无监督学习、迁移学习以及实例分割的角度进行改进。论文的主要工作包括:  1、提出了一种类脑视觉认知启发的语义识别方法。基于对大脑视皮层结构、机理和功能的理解,在具有联想和记忆功能的卷积深度置信网络(ConvolutionalDeep Belief Network,CDBN)基础上,增加了情境特征聚类、结构特征提取、特征再选择等模块,使该无监督学习模型对语义识别更具有鲁棒性。通过对卷积核和特征图的可视化,验证和分析了CDBN模型的特征学习能力,特征聚类更是在简化网络结构的同时保留了最具有判别性的特征。此外,网络通过提取语义特征的结构信息,实现了对模糊语义的精确识别。相比于其他的无监督学习方法(HMAX模型或其他基于字典的学习方法),改进的CDBN模型具有更好更鲁棒的识别能力。  2、提出了一种基于边缘信息的迁移语义识别方法。该方法使用一个统一的神经网络对不同类型的数据集(真实照片和卡通图片)进行语义识别。对于卡通图片,颜色的多元化往往对神经网络的训练造成很大的干扰。因此,在训练过程中,网络摒弃了传统的颜色通道信息,而是通过检测和边缘提取环节,使用更加泛化的边缘信息来进行学习。相比于传统的神经网络,该方法利用鲁棒的边缘信息大大提高了网络的语义迁移能力,使网络能够有效地识别具有不同视觉表征物体的图像。  3、提出了一种改进的实例语义分割网络。多任务级联网络(Multi-taskNetwork Cascade,MNC)将检测、分割及识别任务放在了一个统一的框架中,使该模型不仅能够有效地检测出图像中的每一个实例,而且能够进行像素级别的语义分割。然而此模型仍具有不足之处:面罩分割和分类两个分支的级联结构增加了网络的耦合程度,测试过程中多尺度选择不具有自适应性。针对上述两点不足,我们将MNC模型的级联结构调整为并行结构,并且设计了一种自主选择测试尺度的方法。实验证明,改进的方法在不同标准数据集(COCO数据集以及PASCAL VOC数据集)上的识别精度均得到了提高,同时该模型也可扩展到遥感领域。  基于深度神经网络,本文提出以及改进的模型和算法为图像语义识别提供了基础的框架和功能模块,对高性能、高集成的视觉认知模型和算法的设计和实现提供了新思路,在理论和应用中都具有重要的研究意义。
其他文献
遥感图像中的房屋检测是目标检测领域的一个重要分支。其在城市规划、变化检测及GIS信息构建等方面发挥着至关重要的作用,日渐成为学术界和工业界的研究热点之一。然而,遥感图
环境感知是移动机器人具备人工智能的重要且首要条件。场景三维信息获取、目标检测与跟踪等是环境感知的重要组成部分,在军事、安保、助老助残等方面具有广泛的应用前景。本文
微装配系统是微机电系统(MEMS)发展过程中必不可少的关键技术之一,在微小零件的装配、微型光学系统的组装、MEMS传感器的封装等领域发挥着重要作用。但目前微装配技术中还没
学位
语音驱动发音器官运动可视化及差异分析研究是可视语音合成研究和病理语音分析的重要课题之一。人类语音产生与发音器官运动有着紧密联系,然而由于多数发音器官隐藏在口腔内部
城市污水生化处理过程具有显著的非线性特征,并且其连续运行还要面临着各种约束。仿真技术通过建模和试验研究,可为自动控制方案的开发提供一种省时省力、方便快捷的研究方法。
广义系统理论自20世纪70年代提出以来,展现了较强的应用背景,因此对其理论的研究及应用吸引了国内外众多学者的关注,并逐渐发展成为当今最重要的控制理论分支之一。时滞是工程系
非线性科学是研究不同学科中非线性现象共性的一门前沿学科,是在以非线性为特征的各门分支学科基础上发展起来的综合性学科.非线性动力学行为的研究不仅具有重要的理论意义,还
常见的精神疾病,包括注意力缺陷多动障碍,自闭症,双向情感障碍,抑郁症和精神分裂症等,是高度可遗传的多基因疾病。有证据表明这五种疾病既有共同的又有特异性的遗传和神经机制。本
为实现巡航导弹对目标的精确打击,本文围绕空射巡航导弹的飞行控制系统、航迹规划、航迹跟踪、三维导引律和三维视景仿真等内容展开了一系列研究工作。   首先,研究了巡航
学位
水体富营养化与藻类水华是全球性的水环境恶化问题,给自然生态和人类生产生活都带来极大危害。因此,有必要结合水质监测技术建立预警预报体系。藻类水华暴发的前提是藻类种群浓