论文部分内容阅读
随着互联网技术的飞速发展和便携式数字媒体设备的普及,图像与视频等多媒体视觉数据正呈现出爆炸式增长。因此,如何快速有效地发现并提取海量视觉数据中的语义目标,并进一步对目标主体进行细粒度的语义内容理解与分析,是人工智能和计算机视觉领域中一项具有重要意义和应用价值的研究课题。
本文主要研究像素级别的语义理解问题,将针对四个不同层次的视觉数据展开研究,分别提出了针对单帧图像的图标签传播显著物体检测方法、针对复杂场景下跨模态特征融合的显著物体检测方法、针对单帧图像的衣物分割方法以及针对监控视频场景下的人体解析方法。在此研究路线下,本文主要的研究内容和贡献总结如下:
?针对显著物体检测中存在的目标语义边缘模糊和背景干扰问题,本文提出了一个基于上下文信息感知的显著物体检测方法。该算法利用超像素能保留目标区域边缘的特性,结合了图卷积网络来对全图区域的上下文内容进行信息交互和传播,从而进一步区分出显著区域和非显著区域的差异。本文提出的模型简单有效且易于实现,形成了一个灵活有效的显著物体检测模块。
?针对复杂场景下显著目标难以捕获的问题,本文提出了一个复杂场景下跨模态特征融合的显著物体检测模型。为了解决复杂场景下显著物体检测中背景干扰的问题,该方法通过引入图片标题的文本特征作为补充信息,将视觉特征从坐标空间映射到语义空间来弥合语义鸿沟。针对每个文本特征,该方法利用注意力机制来增强与每个单词相对应的视觉特征,并通过图卷积的方式进行视觉和文本模态的特征融合,进一步增强了图像中显著目标的权重,从而使得学习出的显著区域视觉特征更具有判别性。
?针对细粒度衣物分割问题中存在的训练样本量不足、精细分割种类繁多、衣物区域形变大的难点,本文提出了一个基于可变形卷积的语义关系一致性模型。该算法通过检索数据集中语义相似的模板图像、协同地挖掘模板图像对语义空间内的上下文关系、使用可变形卷积来提取衣物不规则区域,最终达到较高的衣物分割准确率。
?针对监控场景下视频人体解析任务中训练数据少以及如何有效利用视频数据的时序关系的问题,本文提出了基于时序关系的上下文语义关系建模的视频人体解析算法。该方法首先收集有时序关系的连续帧作为模板图像对,通过卷积神经网络融合模块考虑视频帧在时序上的上下文交互,然后使用条件随机场来增强分割图中空间平滑性。该方法保持了视频序列的时序一致性和空间平滑性,从而达到了鲁棒有效的视频人体解析结果。
本文主要研究像素级别的语义理解问题,将针对四个不同层次的视觉数据展开研究,分别提出了针对单帧图像的图标签传播显著物体检测方法、针对复杂场景下跨模态特征融合的显著物体检测方法、针对单帧图像的衣物分割方法以及针对监控视频场景下的人体解析方法。在此研究路线下,本文主要的研究内容和贡献总结如下:
?针对显著物体检测中存在的目标语义边缘模糊和背景干扰问题,本文提出了一个基于上下文信息感知的显著物体检测方法。该算法利用超像素能保留目标区域边缘的特性,结合了图卷积网络来对全图区域的上下文内容进行信息交互和传播,从而进一步区分出显著区域和非显著区域的差异。本文提出的模型简单有效且易于实现,形成了一个灵活有效的显著物体检测模块。
?针对复杂场景下显著目标难以捕获的问题,本文提出了一个复杂场景下跨模态特征融合的显著物体检测模型。为了解决复杂场景下显著物体检测中背景干扰的问题,该方法通过引入图片标题的文本特征作为补充信息,将视觉特征从坐标空间映射到语义空间来弥合语义鸿沟。针对每个文本特征,该方法利用注意力机制来增强与每个单词相对应的视觉特征,并通过图卷积的方式进行视觉和文本模态的特征融合,进一步增强了图像中显著目标的权重,从而使得学习出的显著区域视觉特征更具有判别性。
?针对细粒度衣物分割问题中存在的训练样本量不足、精细分割种类繁多、衣物区域形变大的难点,本文提出了一个基于可变形卷积的语义关系一致性模型。该算法通过检索数据集中语义相似的模板图像、协同地挖掘模板图像对语义空间内的上下文关系、使用可变形卷积来提取衣物不规则区域,最终达到较高的衣物分割准确率。
?针对监控场景下视频人体解析任务中训练数据少以及如何有效利用视频数据的时序关系的问题,本文提出了基于时序关系的上下文语义关系建模的视频人体解析算法。该方法首先收集有时序关系的连续帧作为模板图像对,通过卷积神经网络融合模块考虑视频帧在时序上的上下文交互,然后使用条件随机场来增强分割图中空间平滑性。该方法保持了视频序列的时序一致性和空间平滑性,从而达到了鲁棒有效的视频人体解析结果。