基于生成对抗网络的特征金字塔与局部聚合编码半监督图像分类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:caodahai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类问题的研究是计算机视觉领域的一项基础性研究,图像分类是通过对样本图像的特征进行提取和学习,实现正确分类样本图像所属的类别标签。图像分类任务可分为全监督学习任务和无监督学习任务以及半监督学习任务。全监督学习任务目前已经比较成熟,能够达到很好的图像分类准确度,但传统的全监督图像分类任务对训练的数据集有着极高的要求,数据集的质量直接决定全监督图像分类的精度,在一些难以获得高质量的训练数据集的任务中,导致全监督图像分类任务难以进行或图像分类精度不理想。无监督学习任务虽然没有数据集标签的限制,但无监督图像分类任务存在图像分类精度不够理想的问题。针对只含有少量类别标签的训练数据集,半监督图像分类模型仍可以满足较好的图像分类精度。本文通过构建基于生成对抗网络的局部聚合编码与特征金字塔半监督图像分类模型,并融入特征强化的策略,能够在缺少带标签训练样本的数据集上获得更好的图像分类精度,降低了图像分类任务中训练数据集的限制。本文针对半监督图像分类问题进行了研究,主要成果有:(1)提出基于生成对抗网络的特征强化半监督图像分类方法。通过构建辅助分类网络优化半监督分类模型的网络结构,引入挤压激励架构与特征匹配项强化图像类别特征,从而构建特征强化半监督图像分类模型。所构建的模型通过挤压激励调节图像特征权重值,对辅助分类网络激活函数项优化,实现负值特征信息的加权处理,为挤压激励模块提供更加丰富的图像特征样本,以获取强化的图像类间特征,提升半监督图像分类精度;通过引入正则化项优化辅助分类网络和生成网络的损失函数,缓解了辅助分类网络的过拟合现象,增强了生成网络的目标梯度,提升了虚假图像的质量;在半监督网络训练过程中,通过对辅助分类网络添加人工噪声和训练数据集标签采取单边标签平滑操作以改善辅助分类网络的梯度。特征强化半监督分类模型通过强化类间特征提升了图像类间边界辨识度,在半监督图像分类任务中获得了较好的图像分类精度。(2)提出基于生成对抗网络的特征金字塔半监督图像分类算法。为了提升图像类间特征的多样性,引入金字塔型特征图子结构,构建特征金字塔半监督图像分类模型,实现多层空间图像高级语义特征和低级特征的融合。所构建的模型对辅助分类网络提取不同层的语义特征,浅层网络提取金字塔型子图像纹理特征和颜色特征等基础特征,深层网络提取金字塔型子图像有较强辨识度的形状和轮廓等高级特征,进而将多层空间子特征进行融合,构造多样性的图像类间特征,凸显不同类别图像的类间特征差异,明晰化不同类别图像的类间边界,实验结果表明,所提出的算法有效提高了半监督图像分类的准确率。(3)提出基于生成对抗网络的局部聚合编码半监督图像分类方法。为了实现对图像类间特征的选择和优化,引入局部聚合编码模型,并优化局部聚合编码本训练方式,构建局部聚合编码半监督图像分类模型,以提升图像类间特征差异辨识度。所构建的模型通过辅助分类网络提取样本图像特征,然后将提取到的样本图像特征进行局部聚合编码,通过网络推理建立样本图像类间特征和局部聚合编码本之间的映射关系,得到局部聚合编码后的图像特征视觉描述子,利用局部聚合编码后的图像特征视觉描述子对图像进行半监督图像分类。所提出方法通过局部聚合编码实现了图像类间特征的优化,能够提取具有稀疏特性的图像类别特征,提升了图像类间边界辨识度,在半监督图像分类任务中获得了较高的分类精度。
其他文献
在实际工程中,专业技术人员经常定期检测、维修或更换系统元件,因此用离散时间段来度量系统的运行时间,将系统元件寿命视为离散随机变量,建立离散时间系统可靠性模型更具有实际参考价值。在传统可靠性分析中,基于概率论分析系统可靠性的研究已经比较成熟。然而,在稀缺数据或无任何数据情况下,利用基于概率论的传统可靠性理论来评估系统元件寿命参数及分析系统可靠性指标还存在一定的不足。本文拟结合不确定理论和概率论,假设
理雅各是19世纪英国著名的汉学家,系统地翻译了中国的儒家经典,名为《中国经典》,其中第二卷是《孟子》。理雅各为《孟子》译本撰写了长达123页的学术绪论。笔者选择其中的核
Se(IV)离子具有一对立体活性孤对电子,它可以诱导与中心离子硒配位的多面体发生次级Jahn-Teller畸变,使得Se4+离子处于不对称的配位环境中,SeO3基团因此被认为是一类良好的非
近年来,面向服务的体系架构(Service-Oriented Architecture,SOA)已经越来越多的使用在分布式软件系统架构中。基于Web服务的服务化软件无论是在民用商业系统领域,还是在军用
对偶犹豫模糊语言集(the dual hesitant fuzzy linguistic set,DHFLS)是对语言变量的拓展。DHFLS结合了语言变量和对偶犹豫模糊集(the dual hesitant fuzzy set,DHFS)两种决策信息的表述方法。不仅反映决策者对语言变量的偏好,还包含了对语言变量的隶属度和非隶属度信息,是一种更加灵活的决策信息表述方法。本文研究了对偶犹豫模糊语言多属
楚系玺印是战国时期的重要玺印,其入印文字、装饰图形以及章法构成等篆刻元素都具有区别于战国时期其他国家的独特形式,具有独特的艺术魅力。楚系玺印文字的线条、字形结构都极具独特的特质。楚系玺印既是战国玺印中“写意”意味最浓厚的,同时又是“印化”现象极为突出的,这种两极化的艺术特点是战国时期其他六国所不具备的,是楚系玺印的独特特点。造成这种特点的原因极为复杂,简要言之,与楚国独有的浪漫主义风气相关,也与楚
切普村隶属于红河州红河县洛恩乡洛恩村委会,当地哈尼族自称“xa??n??2”,其使用的哈尼语属于哈雅方言中的哈尼次方言土语。本研究以红河切普村为语言调查点,在大量第一手语料的基础上,以语音学与音系学相关的理论为指导,系统地描写了切普话音系的全貌,并结合实验语音学、社会语言学和语音类型学的相关理论和研究方法,描写和分析了切普话声调格局和声调共时变异特征。全文分四个部分,具体为:第一章,绪论。该章节简
随着国家大力发展社会主义市场经济,大量的城市市政设施、高速公路等公共用人工公物被建设。而这也直接推动了公民所享有的公共用人工公物利用权的扩大,公民实际享有的利用权
城市是人才资源、科技资源、信息资源等创新要素的集聚地。创新往往发生在城市尤其是大城市之中,提升创新能力也是城市保持持续发展的动力和源泉。随着城镇化水平的提升、人口城乡和城城之间迁移和流动,中国城市的人口规模越来越大,城市的人口密度水平也在不断提高。新常态下,研究其城市规模、人口密度与创新产出之间的关系,对深入贯彻实施创新驱动发展战略,提升创新能力和创新效率具有重要意义。本文以城市规模、人口密度对区
识别不规则场景文本是光学字符识别(OCR)问题中较为困难的子问题,该问题对学术界所提出的字符识别算法非常具有挑战性。目前,工业上实际应用的算法分为三类:将不规则场景文本通过薄板样条函数插值(thin plate splines)成规则场景文本后,再进行识别,即由2D布局转成1D布局;提取2D图像特征,通过卷积神经网络和带有循环注意力机制神经网络,降维成1D特征序列,再进行识别;将2D图像转换为1D