论文部分内容阅读
视觉模式是由一些基本的视觉元素组成,通常都会出现图像中,而在一类图像中,观察所有图片的视觉模式,我们会发现很多的视觉模式往往具有很强的相似性,视觉模式会传达出比图像原始像素更高层次的语义信息。针对同类图像的代表性视觉模式挖掘任务可以从一类图片中挖掘出最具代表性的视觉模式,这对于一类图片的表征具有重要意义,而利用挖掘出的代表性视觉模式可以进行很多应用,例如更智能的推荐。针对这个问题,挖掘的方法也各有不同,最早使用传统图像描述符的算法,往往是通过传统方法提取图片特征,进而采用关联规则挖掘算法得到结果,但这样的做法得到的效果往往不尽人意,因为传统算法只能提取到图片的一些低级特征,例如轮廓等,并不能很好的表征图片的背后含义,并且复杂度也较高。随着深度神经网络的流行,针对这一问题便有了更为优异的算法,人们使用深度神经网络提取图片特征,再使用一些机器学习算法挖掘特征内部规律,得到了更好的结果。经过不断发展,挖掘算法的复杂度变得越来越小,挖掘结果变得越来越好,但同时保证视觉模式的频繁性和判别性则依旧是一个难点。针对代表性视觉模式挖掘算法,本文提出了基于多正负样本采样策略的视觉模式挖掘方法,考虑到了视觉模式个数问题,并且由于引进了新采样策略形成的正负样本,增大了视觉模式之间的区分性。本文提出了基于多正样本损失的端到端挖掘网络,将提取特征和挖掘模式做整体考虑,而只通过设定多正样本损失函数,在网络训练中就可以达到优化多个视觉模式的目的。本文提出了基于多类激活图线性组合的模式挖掘网络,将寻找输入图像中具有判别性的视觉模式问题转化为优化特征图通道的线性组合,而将拥有较高分类准确率的线性组合表达的模式看作具有判别性的视觉模式。本文的主要工作总结如下:1.提出基于增强样本采样策略的视觉模式挖掘方法,考虑在一类数据中存在多个视觉模式的问题,相较于传统算法将一类数据包含的视觉模式统一处理,统一挖掘使得不同视觉模式之间的区分性不强,基于增强样本采样策略的视觉模式挖掘方法采用图像增强的方法,针对锚点图像生成多个增强图像作为正样本,而其他所有图片均可作为负样本(包括本类图片),解决了一类图像含多个视觉模式的优化问题。2.提出基于余弦相似性损失的端到端的网络,改变将代表性视觉模式挖掘问题进行分割处理的传统思路,通过设置损失函数,分别结合卷积层和分类层,让网络通过不断优化正负样本之间的距离来保证视觉模式频繁性,通过优化分类准确率保证视觉模式判别性。训练完成后,网络作为挖掘网络针对一类输入图片,可以在得到挖掘结果的同时分开不同视觉模式。3.提出了基于特征图线性组合的挖掘网络,该网络省去传统分类网络的全连接层,直接采用卷积生成的特征图进行线性组合,不同的线性组合方式形成不同的视觉模式,通过不断优化组合系数改变视觉模式分类准确率,高分类准确率保证了视觉模式的判别性。除此之外,基于频繁性的本质含义在网络中设计模式计数单元,按照计数大小寻找最具频繁性的视觉模式。总体来说,这样的方法有效减轻了网络训练任务,且同时保证了视觉模式判别性和频繁性。