基于深度学习的视觉场景理解算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:qinglinqiuyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景语义理解是计算机视觉领域的重点问题之一,它是计算机通过模拟人类视觉功能感知真实世界的主要工具。随着深度学习在计算机视觉领域的广泛应用,物体检测、实例分割等问题取得了重大突破,但图像描述、视觉问答(VQA)等高层场景语义理解任务仍需进一步探索与研究。场景图作为图像的语义描述,已经在许多任务上体现了对高层场景语义理解任务的促进作用,经过研究者们不断的努力,场景图生成任务也已经取得了快速发展。但在真实世界中,复杂的视觉信息依然给目前的场景图生成方法带来了很多挑战,例如场景中物体之间的关联性如何利用,数据集中难以标注真实场景中所有物体间存在的关系,这些问题都限制了场景图生成方法在真实场景中的性能。目前场景图生成任务主要有两大难点,其一在于如何利用图像中物体及其关系的上下文信息,另一大难点则在于如何应对数据集标注困难导致的数据偏差问题。针对图像中物体及其关系的上下文信息利用问题,本文提出一种基于上下文的场景图生成方法,该方法通过融合物体位置信息、语义信息与视觉特征获得全面的物体表示,并利用双向的长短时记忆网络(Bi-LSTM)编码上下文信息以及条件随机场(CRF)建模的结构化预测方法来提高场景图生成的精度。针对数据集关系样本标注困难的问题,本文提出一种零样本的关系预测方法,通过记忆网络和物体类别的层级语义信息来指导不可见关系类别的预测,从而摆脱数据集对场景图生成方法的限制。
其他文献
钢铁工业是中国国民经济的基础产业。钢铁工业不仅是技术、资金、资源、能源、劳动力密集型产业,同时也是影响最大、拥有严重过剩产能的产业之一。于2012年-2015年期间,钢铁
人工智能的发展已经取得丰硕的成果,给我们生活带来方便的同时,也给我们的生活带来了消极影响,而深入分析人工智能给我们带来的影响,特别是负面影响,我们发现,设计的缺陷是人
随着信息技术的快速迭代和飞速发展,云计算、云存储、大数据、物联网等新技术应运而生,在金融、医疗、科研、军事等领域得到广泛的应用。越来越多的互联网用户把自己的信息和
地球上的海洋面积占陆地面积的两倍以上,拥有丰富的渔业生物、矿产和油气等资源。随着人类海洋活动的日益频密,对海洋的研究与开发利用引起了越来越多学者的关注。水下物理信
在铝用阳极生产过程中,分为煅烧,组装,焙烧,成型四个工序,其中焙烧阶段对阳极质量的影响最大,因此对焙烧过程的研究具有重大意义。在焙烧生产过程中,会积累大量的与时间相关
在实际工程应用中,外源干扰通常含有不确定性,但在含有不确定性干扰的运行环境下,受控系统无法渐近跟踪设定的目标值。如果针对存在于设备运行环境中的不确定性干扰,更改控制
随着我国经济大力发展,国民收入有了显著的提升,汽车行业也在改革开放近30年来得到了大力的发展,如今已经成为国家经济支柱中重要的一块,中国市场也在早期国家通过市场换技术
随着互联网的发展,社交软件已经成为人们生活必不可少的一部分,人们可以用社交网站或社交软件进行普通日常交流、学术交流和投票选举等等活动。在线社会网络的大量增长,这为
现有的视频拷贝检测算法没能将视频的空间域特征与时间域特征有效结合起来,从而在检测性能上仍有很大的提升空间。虽然一些基于卷积神经网络(Converlutional Neural Network,
随着我国零售业的不断发展,目前中国网络零售依靠流量红利高速发展的时代已经逐渐过去,未来线上线下将协同发展,相互促进,其中自动售货行业由于其成本较低、占地面积小、24小