论文部分内容阅读
伴随着互联网的飞速发展,海量图像数据不断涌现,对图像所蕴含的丰富语义进行理解也成为学术界的热点。近年来,深度学习从海量标注数据出发来构建大规模深层网络结构,在视觉识别和分类等领域取得了令人瞩目的进展。当前,深度学习往往基于“端到端”架构在网络输出端设计针对特定语义目标的可优化损失函数,并将其作为约束来优化深度网络。 实际中,海量图像及其伴随信息(如标签等)蕴含了丰富的语义,为了得到更好的语义理解结果,需要针对数据在不同情况下所蕴含的语义特性来优化网络,即需要设计更为灵活的语义约束,以得到性能更好的深层网络。 为此,本文主要研究如何根据图像数据在不同场景下的特点,结合语义理解任务的目标需求,设计反映语义内部复杂特性的约束机制,来更好地优化对应任务的深层网络。 本文主要设计了如下几种不同任务场景的约束机制来训练深层网络: 1)基于属性整体关联约束的图像属性检测。视觉属性是图像中的实体概念内涵延伸的描述(如人脸视觉对象可从是否具有“胡子”、是否戴“耳环”这些属性来描述),这些属性提升了视觉对象语义内涵描述的精细程度。在描述某一视觉对象时,与视觉对象相关的属性之间具有复杂的关联关系(如人脸视觉对象描述中,戴“耳环”和有“胡子”两个属性同时出现的可能性就较小)。因此,本文设计了通过限制性玻尔兹曼机所构建的属性整体关联约束。通过挖掘和建模属性之间共现、互斥、依赖等复杂关系,进而对输出结果增加整体关联约束,该约束机制提升了图像属性检测结果的准确性,也使得结果更为合理。 2)基于非完全信息约束的图像多标签标注。互联网中用户产生的海量图像数据往往标注信息不完整甚至缺少标注信息,因此难以直接应用于常见的基于完整标注数据驱动训练学习的深度学习框架中。本文设计了非完全信息约束下的约束机制,来同时利用不完整标注数据和无标注数据,以进行图像多标签标注学习。这一建模方法可视为弱监督学习和半监督学习的结合,其引入弱加权对排序函数和基于全局相似性采样的三元相对相似性函数,有效地利用了不完整标注数据和无标注数据训练网络建模图像和标签间的语义关联。 3)基于主观多样性约束的图像内容描述生成。在图像描述生成这一领域,传统方法的目标往往是所得到的文本描述的准确性,因此对于同一图像难以产生具有差异性的文本描述信息。实际上,由于主观认知内生的差异性,不同人在描述同一幅图像时,会给出存在一定差异性的描述结果。因此,本文在图像文本描述生成中基于弱分类器结合训练聚类混合策略实现描述的非监督聚类,并基于聚类结果构建多样性约束学习不同的主观描述偏好,从而实现对一幅图像产生具有差异性的图像描述结果。 4)基于全局语义与局部语义对齐约束的时序图像数据描述。在图像序列描述中往往会使用代词来指代与之对应的视觉概念,为此,在根据序列图像所蕴含的丰富语义生成描述时需要同时考虑局部语义约束和全局语义约束。本文设计了全局上下文池化算法,从全局语义出发来训练得到局部语义和全局语义上下文检测器。并基于检测得到的图像序列的上下文语义,构建图像和文本两种不同类型数据之间全局语义与局部语义之间的对齐约束,从而得到更加准确的图像序列描述结果。 本文围绕图像语义理解这一目标,研究了深度学习中语义约束机制的设计。实验也表明根据任务场景基于特定的语义约束机制优化深层网络模型,可以进一步提升图像语义理解的准确性、普适性和实用性。