论文部分内容阅读
近年来,随着网络技术飞速发展,特别是公共安全监控系统和网络视频分享平台的普及,视觉数据呈现出爆炸性增长。在大数据时代,如何对视觉信息中包含的复杂语义进行自动解析,实现从独立的语义概念识别到类人的自然语言描述生成,是当前计算机视觉和人工智能领域的研究热点,对于公共安全风险防范、网络文化市场监管等多个领域具有重要的应用价值。视觉语义理解以图像/视频为数据载体,领域知识为核心,其目标是对视觉信息中的目标、行为、场景等不同类型的语义概念进行识别,并进一步生成类人的自然语言描述,从而实现视觉模态到文本模态的映射,跨越视觉语义鸿沟。本文在对视觉语义理解领域研究现状进行详实调研和深入分析的基础上,提出了一套创新的视觉语义理解理论体系,并针对三个核心科学问题开展相关研究:1)在视觉语义概念识别层面,针对视觉模式相近的语义识别困难问题,面向多语义之间的潜在关联性进行建模,从而构建数据与知识相互驱动体系,通过视觉到语义以及语义到语义双重关联性建模,实现复杂语义概念识别;2)在视觉类人解析层面,针对视觉自然语言描述生成模型构建中的多模态数据耦合问题,从分析和发掘不同模态之间互补性和融合方式出发,设计相应深度序列生成模型网络结构和优化算法,从而将视觉内容自动解析成符合人类认知的自然语言描述;3)针对前述数据驱动的视觉解析模型缺乏评价准则引导问题,构建基于客观评价准则的反馈机制,将视觉解析模型和基于客观评价准则的评价模型进行联合学习,实现视觉解析模型在客观评价准则引导下进行迭代优化。针对上述理论体系,本文对各个关键科学问题展开相关研究,主要贡献总结如下:1.本文提出一种基于语义潜在关联性的视觉语义概念建模方法。首先,提出了基于稀疏迁移学习的多域共嵌子空间学习方法。然后,基于多任务学习理论,将多域融合的特征学习与多语义概念建模进行联合学习。通过相应目标函数的构建实现语义潜在关联性引导的多语义模型学习。研究中,针对多视角、多模态环境下的多类人体动作识别问题进行实验分析,验证了所提方法的有效性。2.本文针对视觉类人解析中的多模态数据耦合问题,主要研究了不同模态数据之间的潜在关联、序列数据的层级化注意力机制以及模态变化的异步性等问题,并构建相应深度学习网络进行模型学习,从多角度实现了多模态数据融合,通过多模态的互补性挖掘实现视觉自然语言描述的生成。3.本文针对数据驱动的视觉解析模型缺乏评价准则引导问题,提出基于强化学习的视觉类人解析框架,实现了多层级奖惩机制引导的多层级策略网络优化。该框架可嵌入当前代表性视觉解析网络、生成语句的评测指标以及视觉与语义相关函数,因此具有很强的扩展性和灵活性。在此基础上,通过多类视觉解析网络和客观评价指标的对比,验证了方法可行性。