【摘 要】
:
针对目前卷积神经网络提取图像特征不充分导致的显著性提取效果不明显的问题,提出了一种多层卷积特征融合的自编码显著性区域提取算法.在使用卷积网络提取图像特征时,其浅层卷积特征一般提取的是图像的细节特征如颜色、纹理和位置特征,深层次卷积特征一般是图像的语义特征,在编码层将浅层卷积特征经过下采样融合到深层次的卷积特征中,并将深层次卷积特征进行上采样融合到浅层卷积特征中,实验表明这样可以大大提高编码质量;在解码中将编码时的卷积特征也进行融合,可以获取到解码丢失的信息进而得到更优的解码图像.此外还设计了逐层监督的方式
【机 构】
:
上海工程技术大学 电子电气工程学院,上海201620
论文部分内容阅读
针对目前卷积神经网络提取图像特征不充分导致的显著性提取效果不明显的问题,提出了一种多层卷积特征融合的自编码显著性区域提取算法.在使用卷积网络提取图像特征时,其浅层卷积特征一般提取的是图像的细节特征如颜色、纹理和位置特征,深层次卷积特征一般是图像的语义特征,在编码层将浅层卷积特征经过下采样融合到深层次的卷积特征中,并将深层次卷积特征进行上采样融合到浅层卷积特征中,实验表明这样可以大大提高编码质量;在解码中将编码时的卷积特征也进行融合,可以获取到解码丢失的信息进而得到更优的解码图像.此外还设计了逐层监督的方式来指导解码层的训练,即用标准的区域提取图进行下采样作为每一层解码层的标准图进行监督训练.实验结果表明,该方法可以在PAGRN的基础上将F度量平均提升0.071,平均绝对误差MEA平均降低0.031.
其他文献
当前大部分伪造人脸检测技术使用深度学习来鉴别真实视频与伪造视频之间的特征差异,此类方法在未压缩视频上取得了不错的效果,但在检测经过压缩处理的视频时检测效果就会严重下降.针对此类问题,提出了基于改进三元组损失的伪造人脸视频检测方法.首先,使用伪影图生成器生成一幅伪影图来加深伪造人脸与真实人脸之间的特征差异;其次,使用改进的三元组损失来解决难例样本难以被正确检测的问题;最后,选用更适合人脸鉴伪的深度学习网络提取卷积特征.在FaceForensics++数据集上与目前领先的人脸鉴伪方法的对比表明,该方法检测准确
针对现有骨架动作识别主要采用双流框架,在提取时间空间以及通道特征方法上存在的问题,提出一个ADGCN,用于骨架动作识别.首先对骨架数据进行建模,分别将关节、骨骼及其关节和骨骼的运动信息输入到多流框架的单个流.然后将输入的数据传送到提出的有向图卷积网络中进行提取关节和骨骼之间的依赖关系,再利用提出的时空通道注意力网络(STCN),增强每层网络中关键关节的时间、空间以及通道的信息.最后将四个流的信息通过加权平均计算动作识别的精度,输出动作的预测结果.此模型在两个大型数据集NTU-RGB+D和Kinectics
当前普遍使用的轻量型神经网络仍然存在计算量与参数量过大的问题,导致算力较低的廉价移动设备无法快速完成图像分类任务.针对此问题提出了一种更适合于应用在算力较低的廉价移动设备上的轻量型神经网络,引入了代价较小的线性操作与特征图合并操作用于减少神经网络的计算量与参数量,还引入了改进的残差结构、注意力机制和标签平滑技术用于提高结果判断的准确率.基于PD-38数据集的实验表明,该神经网络相比传统的轻量型神经网络使用较小的计算量与参数量可以达到较高的分类准确率.在公共数据集CIFAR-10上的实验进一步表明该神经网络
作为一种提取视频时空特征的深度学习方法,伪三维残差网络(pseudo-3D residual net,P3D ResNet)利用SVM目标函数来驱动深度网络学习,这样该方法继承了SVM的不足——仅考虑了不同类别间的间隔,忽略了同类样本数据的分布信息.针对该问题,提出了基于最小类内方差的伪三维残差网络方法,不仅体现了大间隔原理,同时又利用了样本数据的分布信息.该方法首先使用P3D ResNet提取的特征向量计算类内散度矩阵;然后利用该矩阵构建了新的目标函数;最后通过新构建的目标函数来驱动P3D ResNet
主流的目标跟踪算法只使用可见光(RGB)图像进行跟踪任务,当跟踪场景的光照条件较差时,表征颜色和纹理特征的可见光图像会严重限制跟踪器的跟踪性能.针对单一模态目标信息存在缺失的问题,在Siam-FC网络模型以及红外—可见光图像融合思想的基础上提出了双模态权值自更新孪生网络目标跟踪方法.根据红外图像可以采集运动目标热信息的特点,有效利用了红外和可见光图像在目标跟踪领域的互补优势;使用较浅的特征提取网络AlexNet即可提取到运动目标具有鲁棒性的特征,在保证跟踪精度的同时提高了跟踪模型的跟踪速度.在公开数据集O
图像描述生成是图像人工智能领域的重要研究方向之一.现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系.提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目标显著性特征进行解码,并将解码后的两种特征进行融合,实现图像目标属性与目标间关系的信息互补.在MSCOCO数据集上进行实验,结果相较于基准方法有一定的提升,表明该模型对图像内容的描述更加准确和完善,对图像信息表达更加丰富.
为有效地表征人体行为的时空特征,将骨骼特征通过Hough变换后建立人体的动作表示.具体来说,采用OpenPose获取视频帧人体骨骼关键点,之后构建骨骼关节并映射到Hough空间,将骨骼关节轨迹转换为点迹,然后角度和轨迹特征的FV(Fisher vector)编码融合作为线性SVM分类器的输入.在经典公共数据集KTH、Weizmann、KARD和Drone-Action上,实验结果表明Hough变换提升了特征的鲁棒性,提高了人体行为识别的性能.
针对遥感影像中道路信息容易受到建筑物、植被等非道路信息干扰的问题,提出了一种基于门控卷积残差网络的遥感影像道路提取模型.首先,该网络使用ResNet101作为网络的编码器,在使得网络足够深的同时,也保证了梯度信息的有效传导;其次,在中心部分使用ASPP多尺度特征提取模块,进一步挖掘特征图中给予的信息;最后,使用门控卷积替换普通的卷积层,它可以根据特征图中参数的重要性,自适应分配权重,作为网络的解码器部分.该方法在CVPR DeepGlobe 2018道路提取挑战赛的数据集上进行了验证,平均交并比、Dice
基于深度网络的单帧图像超分辨(SISR)方法为目前SR研究热点,但是多数该类方法在特征提取时主要侧重在网络深度结构的探索,忽略了中间空间特征层之间的相似性,并且在重构时忽略了特征层之间的特征差异性.针对上述问题,提出了基于空间特征变换与反投影重构的渐进式网络.该方法的主要特征是,在图像特征提取时对特征空间进行特征仿射变换,从而获得渐进式特征和空间变换特征,增加特征层间的不同相似性.在图像重构阶段,重构模块采用多尺度反投影的策略融合了图像多源特征,从而使得其模块更加注重特征之间的差异性.实验结果表明,相比大
现有度量学习方法中基于元组的损失训练速度慢、基于代理的损失未考虑数据间细粒度的语义关系.针对这些问题,结合两者的优势提出了一种面向细粒度图像的数据关联代理损失(data relation proxy loss,DRPLoss)函数.采用具有批量归一化(BN)层的inception网络作为嵌入网络,在度量空间中利用梯度相互交互学习数据间的相关关系,并使用温度缩放调节DRPLoss对嵌入向量进行监督训练.在CUB-200-2011和Car-196数据集上验证了不同嵌入维度的DRPLoss的有效性,recall