基于视觉影像的语义理解算法研究

来源 :中国科学院大学(中国科学院西安光学精密机械研究所) | 被引量 : 0次 | 上传用户：wlflfxzq45

【摘要】

：

基于视觉影像的语义理解是视觉影像处理和分析领域的重要研究课题。如何从大量的图像、视频数据中挖掘有用、有效信息,更好地为军事侦察、公共安全、现代医疗和智慧城市等国

【作者】

：

房杰

【出处】

：

中国科学院大学(中国科学院西安光学精密机械研究所)

【发表日期】

：

2020年01期

【关键词】

：

神经网络多任务学习空频联合表达困难样本学习结构保持特征金字塔判别信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于视觉影像的语义理解是视觉影像处理和分析领域的重要研究课题。如何从大量的图像、视频数据中挖掘有用、有效信息,更好地为军事侦察、公共安全、现代医疗和智慧城市等国家重大需求提供服务,已成为视觉影像语义理解领域亟待解决的问题,而图像质量改善、场景识别、显著性目标检测和语义分割又是视觉影像语义理解领域不可或缺的重要组成部分。因其巨大的理论研究意义和广泛的实际应用价值,基于视觉影像的语义理解受到广泛关注并取得长足发展,但仍存在如下问题:1)对图像降质因素挖掘不到位;2)对图像判别信息表达不完整;3)对图像数据分布利用不充分;4)对图像结构信息刻画不细致。针对以上4个问题,本文主要研究内容归纳如下:(1)提出基于多任务学习机制的图像去模糊算法。该算法将图像去运动模糊问题转化为一种图到图的映射问题,即从“模糊域”到“清晰域”的映射。其利用数据驱动的方式学习不同域之间的转换关系,从而避免了传统基于核估计的方法中对先验知识的过度依赖。此外,该算法还发现当相同的模糊因素作用于纹理复杂度不同的图像时,其对图像带来的降质情况不同的。具体地,纹理越复杂的图像受到的影响越严重。基于此,该方法创造性地将图像的纹理复杂度信息纳入到图像去运动模糊框架中以指导其参数优化,并通过加权注意力掩膜策略增强了网络对图像中复杂区域的重构能力。(2)提出基于鲁棒空频联合表达机制的图像场景识别算法。该算法创造性地将图像的频域信息和空域信息统一到识别框架,其充分挖掘了不同域信息的优势。具体来讲,该方法分别用卷积神经网络和多尺度带通滤波网络提取图像的空域判别信息和频域统计信息,并利用一维循环卷积策略对两种信息进行了有效融合。由于频域统计信息的引入,该方法在一定程度上解决了高分辨率遥感影像由于其拍摄角度多变而引起的误识问题。另外,该方法通过对空域图像中不同区域之交互关系的编码,加强了空域特征描述算子的语义判别能力,从而提高了算法对复杂场景的识别性能。(3)提出基于显隐性困难样本学习机制的显著性目标检测算法。该算法将困难样本划分为显性困难样本和隐性困难样本,并根据其各自特点设计针对性网络结构和优化策略,用以来提高模型性能。具体地,显性困难样本是指目标边缘区域和近边缘区域的像素,这些样本由于其和周围像素表观特征的相似性和语义标签的异质性,其检测难度相应较大。隐性困难样本是指在上一轮迭代中预测结果和真值差异较大的像素。该方法通过加大对上述困难样本的惩罚来加强模型对其敏感性。另外,该方法根据目标尺寸和形状结构信息采用多尺度软注意力融合策略提升其检测精度。(4)提出基于空间结构保持特征金字塔网络的语义分割算法。该算法采用特征金字塔模型有效融合了深度卷积网络中不同层级的特征,包括浅层纹理结构特征和深层语义判别特征,保证了分割结果和准确性。为了避免训练样本不足带来的过拟合问题,该算法采用迁移学习策略用在大规模图像识别数据库上训练的神经网络提取不同层级的图像特征。另外,该算法根据输入图像不同区域块之间的相似性和上一轮迭代预测掩膜中相应区块间的关联性设计了空间结构保持损失项,其可以将输入图像中不同像素之间的交互传递到预测结果图中,从而在一定程度上避免了空域弥散问题。

其他文献

机载多通道SAR运动目标检测与成像算法研究

合成孔径雷达(Synthetic Aperture Radar,SAR),作为主动式微波遥感设备,具有全天时、全天候的对地观测能力。SAR成像算法通过对静止目标的回波信号进行距离向和方位向的二维

学位

合成孔径雷达干涉相位运动目标检测运动参数估计运动目标成像

用于远距离相干探测的高功率窄线宽光纤激光器研究

高功率窄线宽光纤激光器因其具有输出功率高、谱线宽度窄等特性而被广泛应用于合成孔径激光雷达、相干激光测距、相干激光测速、光纤传感等远距离相干探测领域。1.5μm波段是

学位

激光线宽窄线宽测量放大自发辐射光纤放大器分辨率

均匀材料尺度依赖和表面依赖的接触力学分析

随着现代制造技术的高速发展,许多机械产品和器件的日益小型化、微纳化。当机械系统结构或者材料特征尺寸减小到微纳米量级时,结构或者材料就会呈现出一些不同于其在宏观尺度

学位

尺度效应表面效应偶应力理论表面压电理论接触力学

环境风速对PMMA固体不同方式顺流火蔓延行为影响的实验研究

固体可燃物火蔓延在实际火灾场景中是一种十分常见的现象,一直是火灾安全研究的重中之重,因此吸引了大批的学者展开实验与理论研究。研究表明当燃烧区域和非燃烧燃料之间存在

学位

环境风材料厚度倾斜角度PMMA火蔓延速度燃烧速率热反馈

基于液黏传动的机电液耦合系统动态匹配特性及控制策略研究

液黏传动被广泛应用于风机、水泵的无级调速和刮板输送机、带式输送机的软启动,具有过载保护、冲击小、高效率和高可靠性等特点,对大功率设备的节能起着重要的作用。本文针对

学位

重型刮板输送机可控启动装置液黏传动机电液耦合控制策略

基于单光子的非视域成像方法与地下洞穴应用研究

非视域成像技术是计算成像领域中的一项新兴研究,该技术在众多领域中均有着重要的研究和应用价值,如深空探测、自动驾驶、医疗诊断、搜索救灾、反恐作战和历史考古。与传统成

学位

非视域成像单光子探测器阵列相位场虚拟波洞穴三维模型定位与追踪

基于车辆响应的轨道几何状态评价方法研究

科学的轨道几何状态评价方法是保障列车安全舒适运行的重要支撑,车辆响应是评价列车运行安全舒适性的重要指标。由于轨道几何与车辆响应之间关系复杂,轨道几何局部峰值和轨道

学位

轨道几何状态车辆响应预测模型评价方法深度学习方法

高分辨率大视场快速傅里叶叠层显微成像方法研究

傅里叶叠层显微成像术(Fourier ptychographic microscopy,FPM)是新一代计算成像技术和定量相位成像技术。兼具了相位恢复和相干合成孔径的思想,它可以解决传统显微成像中分

学位

傅里叶叠层显微成像计算成像定量相位成像相位恢复像差

Ki8751调节乳腺癌细胞线粒体合成促进细胞凋亡的研究

[目的]血管内皮生长因子(Vascular endothelial growth factor,VEGF)除外其主要的促血管生成作用,还可以促进肿瘤细胞增殖,后者具体的作用机制仍尚未阐释清晰。本研究旨在应

学位

乳腺癌血管内皮生长因子受体2线粒体转录因子A活性氧凋亡

我国影子银行系统风险溢出效应研究

2008年,美国次贷危机的突然爆发引发的国际金融危机重创全球经济金融体系,作为元凶之一的影子银行迅速成为全球经济发展的关注焦点。当前,房地产泡沫、地方政府债务和影子银

学位

系统风险影子银行金融体系风险溢出效应

基于视觉影像的语义理解算法研究

与本文相关的学术论文