面向图像语义理解的深度学习约束机制算法研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:kashemir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的飞速发展,海量图像数据不断涌现,对图像所蕴含的丰富语义进行理解也成为学术界的热点。近年来,深度学习从海量标注数据出发来构建大规模深层网络结构,在视觉识别和分类等领域取得了令人瞩目的进展。当前,深度学习往往基于“端到端”架构在网络输出端设计针对特定语义目标的可优化损失函数,并将其作为约束来优化深度网络。  实际中,海量图像及其伴随信息(如标签等)蕴含了丰富的语义,为了得到更好的语义理解结果,需要针对数据在不同情况下所蕴含的语义特性来优化网络,即需要设计更为灵活的语义约束,以得到性能更好的深层网络。  为此,本文主要研究如何根据图像数据在不同场景下的特点,结合语义理解任务的目标需求,设计反映语义内部复杂特性的约束机制,来更好地优化对应任务的深层网络。  本文主要设计了如下几种不同任务场景的约束机制来训练深层网络:  1)基于属性整体关联约束的图像属性检测。视觉属性是图像中的实体概念内涵延伸的描述(如人脸视觉对象可从是否具有“胡子”、是否戴“耳环”这些属性来描述),这些属性提升了视觉对象语义内涵描述的精细程度。在描述某一视觉对象时,与视觉对象相关的属性之间具有复杂的关联关系(如人脸视觉对象描述中,戴“耳环”和有“胡子”两个属性同时出现的可能性就较小)。因此,本文设计了通过限制性玻尔兹曼机所构建的属性整体关联约束。通过挖掘和建模属性之间共现、互斥、依赖等复杂关系,进而对输出结果增加整体关联约束,该约束机制提升了图像属性检测结果的准确性,也使得结果更为合理。  2)基于非完全信息约束的图像多标签标注。互联网中用户产生的海量图像数据往往标注信息不完整甚至缺少标注信息,因此难以直接应用于常见的基于完整标注数据驱动训练学习的深度学习框架中。本文设计了非完全信息约束下的约束机制,来同时利用不完整标注数据和无标注数据,以进行图像多标签标注学习。这一建模方法可视为弱监督学习和半监督学习的结合,其引入弱加权对排序函数和基于全局相似性采样的三元相对相似性函数,有效地利用了不完整标注数据和无标注数据训练网络建模图像和标签间的语义关联。  3)基于主观多样性约束的图像内容描述生成。在图像描述生成这一领域,传统方法的目标往往是所得到的文本描述的准确性,因此对于同一图像难以产生具有差异性的文本描述信息。实际上,由于主观认知内生的差异性,不同人在描述同一幅图像时,会给出存在一定差异性的描述结果。因此,本文在图像文本描述生成中基于弱分类器结合训练聚类混合策略实现描述的非监督聚类,并基于聚类结果构建多样性约束学习不同的主观描述偏好,从而实现对一幅图像产生具有差异性的图像描述结果。  4)基于全局语义与局部语义对齐约束的时序图像数据描述。在图像序列描述中往往会使用代词来指代与之对应的视觉概念,为此,在根据序列图像所蕴含的丰富语义生成描述时需要同时考虑局部语义约束和全局语义约束。本文设计了全局上下文池化算法,从全局语义出发来训练得到局部语义和全局语义上下文检测器。并基于检测得到的图像序列的上下文语义,构建图像和文本两种不同类型数据之间全局语义与局部语义之间的对齐约束,从而得到更加准确的图像序列描述结果。  本文围绕图像语义理解这一目标,研究了深度学习中语义约束机制的设计。实验也表明根据任务场景基于特定的语义约束机制优化深层网络模型,可以进一步提升图像语义理解的准确性、普适性和实用性。
其他文献
随着信息全球化时代的到来,博物馆的管理和运作模式受到了巨大的冲击.数字化馆藏的迫切要求、资源共享的发展趋势以及日益多样化的文化传播方式,成为传统博物馆面临的严峻挑
在石油、化工等行业中,广泛使用各种螺旋杆机械,其中的螺旋转子制造技术则是多年来一直困扰其发展的关键难题。从1994年起,沈阳工业大学数控研究中心即对复杂异形螺旋面加工进行
在如今的大数据时代,Web2.0技术与社交网络的蓬勃发展为数据分析领域的研究者们提供了海量的用户生成内容。这些海量数据以文本、图像、视频、音频等多种模态的形式表达与呈现
该文基于语音产主的模型,从时域、频域,特别是从倒谱出发,对语音信号进行分析,并结合模式识别的理论,论述语音识别的基本理论.HTK是剑桥大学语音组开发的一个极方便的、使用
个性化服务是在Internet“信息爆炸”的背景下对“信息过载”和“信息迷航”问题的解决方案,个性化服务将是未来信息服务的主流模式。本文提出了一个基于Web使用挖掘的个性化
该文对已有的技术进行新的扩充,利用智能Agent技术来监测和调节应用性能,给出了使用智能Agent对网格计算进行实时监控的新方法.该文使用排队论对结点的负载进行预测.使用多元回
签名作为人类的一种独特行为特征,因可代表书写人的身份,一直以来在金融、安全等领域有着广泛的应用。随着计算机技术的发展,近二十年来,签名鉴定技术的自动化处理得到较多的研究
在国外,分布式应用系统的研究与开发早已进行。截止到目前,国外的分布式应用系统的在技术上已呈现如下特点:多层次性、面向对象型、跨平台性、系统功能易扩充、系统易维护、能适
Reed-Solomon(RS)码具有同时纠正突发错误和随机错误的能力,且纠正突发错误更为有效,其纠错能力达到了分组纠错码的极限,因而被广泛地应用于数据通信和数据存储系统的差错控制中。
本文首先论述了XML、UDM、SOAP等能够用于数据交换系统的核心技术。阐述了在硬件层上进行数据交换的基本原理,为将来在企业内部或企业之间构造数据交换系统打下坚实的理论基础