基于深度学习的像素级语义理解方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sven321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和便携式数字媒体设备的普及,图像与视频等多媒体视觉数据正呈现出爆炸式增长。因此,如何快速有效地发现并提取海量视觉数据中的语义目标,并进一步对目标主体进行细粒度的语义内容理解与分析,是人工智能和计算机视觉领域中一项具有重要意义和应用价值的研究课题。
  本文主要研究像素级别的语义理解问题,将针对四个不同层次的视觉数据展开研究,分别提出了针对单帧图像的图标签传播显著物体检测方法、针对复杂场景下跨模态特征融合的显著物体检测方法、针对单帧图像的衣物分割方法以及针对监控视频场景下的人体解析方法。在此研究路线下,本文主要的研究内容和贡献总结如下:
  ?针对显著物体检测中存在的目标语义边缘模糊和背景干扰问题,本文提出了一个基于上下文信息感知的显著物体检测方法。该算法利用超像素能保留目标区域边缘的特性,结合了图卷积网络来对全图区域的上下文内容进行信息交互和传播,从而进一步区分出显著区域和非显著区域的差异。本文提出的模型简单有效且易于实现,形成了一个灵活有效的显著物体检测模块。
  ?针对复杂场景下显著目标难以捕获的问题,本文提出了一个复杂场景下跨模态特征融合的显著物体检测模型。为了解决复杂场景下显著物体检测中背景干扰的问题,该方法通过引入图片标题的文本特征作为补充信息,将视觉特征从坐标空间映射到语义空间来弥合语义鸿沟。针对每个文本特征,该方法利用注意力机制来增强与每个单词相对应的视觉特征,并通过图卷积的方式进行视觉和文本模态的特征融合,进一步增强了图像中显著目标的权重,从而使得学习出的显著区域视觉特征更具有判别性。
  ?针对细粒度衣物分割问题中存在的训练样本量不足、精细分割种类繁多、衣物区域形变大的难点,本文提出了一个基于可变形卷积的语义关系一致性模型。该算法通过检索数据集中语义相似的模板图像、协同地挖掘模板图像对语义空间内的上下文关系、使用可变形卷积来提取衣物不规则区域,最终达到较高的衣物分割准确率。
  ?针对监控场景下视频人体解析任务中训练数据少以及如何有效利用视频数据的时序关系的问题,本文提出了基于时序关系的上下文语义关系建模的视频人体解析算法。该方法首先收集有时序关系的连续帧作为模板图像对,通过卷积神经网络融合模块考虑视频帧在时序上的上下文交互,然后使用条件随机场来增强分割图中空间平滑性。该方法保持了视频序列的时序一致性和空间平滑性,从而达到了鲁棒有效的视频人体解析结果。
其他文献
该文利用神经网络技术检验数据初期处理算法对预测效果的影响,提出了三种数据前期处理算法的改进方法:(1)收盘价5日涨跌比;(2)成交量5日均值法;(3)日均价法.该文首先针对股票预测广泛的社会需求,概述了股票预测的技术现状、常用分析方法,以及传统预测方法面临的问题;其次,综合比较了改进的BP算法和径向基函数法、回溯期改变以及输入矢量差别对预测结果的影响,确定了一个结构和性能良好的神经网络,能够减少外
学位
物流规划由于在现实世界的大量应用一直受到广泛关注。现实世界的物流规划问题中存在着许多动态、随机的变化,因此不确定环境下的物流规划问题成为了物流领域的研究热点。进化算法能有效解决许多物流规划问题,因而研究者提出了许多进化算法来解决不确定环境下的物流规划问题。然而,这些进化算法在应对一些不确定环境下物流规划问题时的性能、效率方面仍存在不足。为此,本文针对性地提出了多种有效的新型进化算法来求解两类典型的
学位
动态图数据在现实生活中十分普遍,科研合作网络、家谱树、足球传球网络、社交媒体网络,都可以被建模成动态图数据。分析这类数据的演变规律可以帮助领域专家发现潜在的有用信息。然而随着数据的累积,动态图数据中包含着大量的图结构信息和复杂的时序变化,这给领域专家识别有用信息,分析潜在的演变模式和特征结构带来了极大的挑战。如何解决动态图数据结构复杂、数量巨大、长度不定的问题,有效地提取动态图数据中的演变模式,总
室内场景重建问题是计算机视觉中的一个重要研究课题,其所得到的场景稠密三维模型在很多领域都有重要应用,例如室内场景的三维模型作为地图可以辅助机器人进行路径导航以及避障、稠密的三维场景重建结果作为输入可以解决传统目标识别、跟踪以及检测方法无法解决的场景遮挡问题等等。近年来随着消费级深度相机的不断普及,基于RGB-D数据的室内场景重建越来越受到关注。虽然在科研人员不懈努力下,三维重建算法已经取得了长足的
更高的准确度与计算效率一直是基于物理的仿真所追求的终极目标。近年来针对特定问题开发的高效算法和高速发展的计算能力共同推动了物理仿真的发展,然而实际应用中物理仿真所需求的计算资源和时间成本往往还是会超出预算。因而实践中不得不在速度和准确度之间做一定取舍,比如降低仿真规模、算法复杂程度等来换取更好的运行性能。与此同时,处理器速度与存储容量的增长推动着计算能力的爆炸式增长,而相比之下,时钟频率和存储访问
学位
近三十年来,布料仿真一直是计算机图形学领域最热门的研究方向之一。针对布料仿真的各个阶段(布料模型、时间积分、拉伸限制、碰撞处理等)出现的不足,研究者做了大量研究,并取得了很好的成果。目前,基于物理的布料仿真已经可以生成高真实感的布料形态,并广泛应用于服装设计、电影、游戏等领域。其中,以虚拟试衣镜为代表的实时虚拟试衣应用一直吸引着科研界和工业界的目光,数款虚拟试衣系统被相继推出,但大多缺乏动态性和真
数字化口腔诊疗技术的发展,使得患者信息采集、治疗方案设计、治疗效果评估等诊疗环节更加全面、准确且安全。使用光学成像设备和锥形束计算机断层扫描成像(Cone beam CT,CBCT)设备可以快速获取患者的三维网格数据和CBCT图像数据。通过观察患者医学数据中的相关组织结构,医生可以实施更为有效和个性化的治疗。如何从患者的医学数据中抽取得到有助于临床诊疗的组织结构信息,是数字口腔技术应用发展的关键。
学位
作为机器学习的一个重要分支,强化学习是一类在线学习的方法,其目的是最大化与环境交互所获得的长远回报。近年来,强化学习领域的研究取得了长足的进展,在机器人控制、游戏与博弈、仿真模拟、调度与优化等领域取得了广泛的应用。然而,现有强化学习方法仍面临着一些挑战。相比于其他类型的机器学习方法,强化学习的样本数据利用率往往较为低下,针对一些高维空间问题时探索效率不高,以及算法健壮性差等。本文从强化学习的样本数
学位
近年来,随着传感器技术的发展和智能设备的普及,各行各业收集获取了海量的时空数据,它们通常记录了数据对象的时间、空间和其他各类多元属性信息和特征。以数据挖掘、人工智能技术为基础的时空数据分析技术迅速成为科研、应用领域的热门课题,并被广泛地应用于诸如城市规划决策,交通监督管理,人群行为模式分析等应用场景中。然而,由于时空数据的多源异构性和分析任务的复杂多样性,使得现阶段的数据的管理和分析面临了诸多挑战
学位
随着信息技术的不断发展和人们通信需求的不断增加,催生出各式各样的网络系统和服务。一方面,用户数量的增长使得有线IP网络的规模变得越来越庞大,多跳连接成为了地理位置分布广泛的主机间正常通信的基本前提。另一方面,物联网技术和应用的成熟使得物联网设备的数量经历着快速的增长。截至2019年,全球物联网设备数量达到110亿。为了实现资源受限物联网设备的互联互通,涌现出多种无线多跳数据传输技术。面对这些普遍存
学位