【摘 要】
:
视频时空定位任务是计算机视觉和自然语言处理技术两个领域的交叉融合,可被广泛地应用于安防监控、视频检索等领域。关系时空定位和多句式查询文本的目标时空定位是视频时空定位任务中的两个新兴的研究分支。现阶段的关系时空定位方法利用目标空间特征构建目标之间的动态关系特征,通过信息的单向传递定位符合关系的多目标时空轨迹,然而其忽略了信息的双向传递对定位的指导作用,且错误的信息在单向传递过程中难以被矫正。同时,现
【基金项目】
:
国家自然科学基金面上项目,联合文本先验和多标注信息的图像深度视觉语义识别方法研究,项目编号:61571354; 国家自然科学基金面上项目,复杂环境下小样本高分辨雷达目标识别方法,项目编号:62173265;
论文部分内容阅读
视频时空定位任务是计算机视觉和自然语言处理技术两个领域的交叉融合,可被广泛地应用于安防监控、视频检索等领域。关系时空定位和多句式查询文本的目标时空定位是视频时空定位任务中的两个新兴的研究分支。现阶段的关系时空定位方法利用目标空间特征构建目标之间的动态关系特征,通过信息的单向传递定位符合关系的多目标时空轨迹,然而其忽略了信息的双向传递对定位的指导作用,且错误的信息在单向传递过程中难以被矫正。同时,现阶段大部分多句式查询文本的目标时空定位方法仅从单一的视觉信息中编码目标特征及目标之间的关系特征,忽略了查询文本中包含的属性词、关系等多种应当被考虑的语义信息。此外,通过加强同一目标的帧间关联,可以提升定位模型的时间定位性能。本文针对现阶段关系时空定位方法和多句式查询文本目标时空定位方法中的不足之处开展研究,主要成果如下:(1)提出一种基于多关系协同与自适应信息过滤的迭代式视频关系时空定位算法。视频关系时空定位任务中存在三个重要的问题:“主语需要关注什么”、“谓语需要关注什么”以及“宾语需要关注什么”。三个问题虽然各自有区别,但利用三者之间的互补信息可以有效缓解语义模糊导致的定位歧义问题,从而提升关系时空定位的整体性能。因此本文设计了一个基于多关系协同与自适应信息过滤的迭代定位网络来同时解决三个问题。首先,迭代定位网络将主语、谓语和宾语表示为三个主要信息节点,三者之间通过边来相互传递信息,使各节点在每次迭代中通过结合其它节点的信息来调整自身定位的范围,从而消除定位歧义。其次,本文构建了多种类型的关系子网,包括空间关系、时间关系、局部-全局关系等,以充分对三个节点内部及节点之间的不同关系进行建模。并且,对于每一个节点接收到的、包含多种关系的输入信息,应用自适应过滤门来有选择地记忆其中有用部分而滤除无用部分。本文在Vid VRD和Vid OR数据集上进行了实验与结果分析,证明了算法的有效性。(2)提出一种基于多种语义特征和周期一致性的多句式查询文本目标时空定位算法。首先,针对现阶段视频定位任务中,视觉与文本之间存在的“语义鸿沟”,本文通过提取查询文本中修饰目标名词的属性词的语义特征来增加文本所包含的信息量,以缩小两者间的信息差距。其次,针对时空定位任务中关系聚合问题,为解决依赖于单一视觉信息分配关系权值或无差别地平等考虑所有关系所导致的问题,本文将视觉信息与语义信息结合,利用重要性估计网络估算目标间关系的重要性。最后,对于常被忽略的同一目标在时间序列中帧间关联信息建模问题,本文引入周期一致性概念,通过最小化正向时间顺序定位和逆向时间顺序定位的差异来加强同一目标在不同帧上的定位一致性。与现有算法在Vid STG数据集上进行对比与分析,验证了本文所设计的算法的有效性。
其他文献
视觉目标跟踪是计算机视觉领域的一项经典研究课题,在视频监控、自动驾驶和人机交互等方面应用广泛。尽管对于目标跟踪的研究取得了很大进展,但单模态信息的局限性和不确定性影响跟踪效果,如可见光成像受光照、雨、烟和霾等环境条件的影响较大,红外成像虽受环境影响小,但其成像机理导致红外图像分辨率较低、纹理少,在热交叉条件下目标与背景难区分等。基于可见光和热红外(RGB/Thermal,RGBT)的双模视觉跟踪器
随着机器学习、深度学习技术的进一步发展,基于表示学习的分类算法性能有了很明显的提升,但基于表示关系的算法大多仅通过原始样本的直接关系进行建模,而如何在子空间或表示空间也能够保持原始数据的相似性关系和空间结构,是提升表示学习模型性能的关键。本文立足于表示学习中的子空间学习、字典学习和深度字典学习,研究具有更高识别精度的表示算法。所取得的研究成果如下:(1)针对子空间学习算法或未能考虑样本的类标信息,
肺癌是人类最常见的恶性肿瘤之一,同时也是全球癌症相关死亡的主要原因,每年导致大约180万人死亡,其中肺腺癌是一种最常见的肺癌组织学类型。近年来,尽管针对一些致癌驱动因素的靶向治疗以及针对免疫检查点的免疫疗法取得了显著的临床成功,但是仍然有很大比例的肺腺癌患者无法进行靶向治疗,而且还经常观察到对靶向治疗的耐药性。此外,免疫疗法的功效也仅限于某些患者,且在个体之间存在显著的差异。肺腺癌是一个动态的进展
随着传感器和计算机技术的发展,人们见证了信息的超载和数据特征的爆炸式增长。通常这些数据具有数千甚至数十万个维度,严重制约了现实视觉任务的计算效率。为了解决这一问题,学者们提出了许多特征表示方法来挖掘数据中真正有用的信息。本文立足特征表示学习领域,分别围绕子空间学习、多视角学习和小样本学习任务,研究具有更高识别率的分类算法。论文所取得的研究成果如下:首先,针对基于协作图的判别分析(CGDA)没有充分
医用射频消融技术是一种将射频电子电路技术和医疗科学相结合的技术,利用交变电流导入人体时产生的热效应达到切割、凝血、消融等不同效果。该技术具有微创、显著减少出血等优点并被广泛应用于各类肿瘤治疗与呼吸道治疗中。目前市面上实际应用的医用射频消融设备以欧美、日韩等国的品牌为主,国内相关设备的研发起步较晚,并存在一定的问题。因而,研发具有自主知识产权的高精度医用射频消融技术具有重要意义。本文首先对射频电信号
基于深度学习的医学图像分割算法往往需要大量的标记样本用于网络训练。然而,医学图像的像素级标记成本较高、难度较大,且需要具备专业知识。这导致目标域中通常不存在手工标注的样本。并且,由于医学图像的异构性与复杂性,来自不同成像设备的数据之间存在分布差异,这种分布差异构成的域偏移会使得在源域上训练得到的分割模型应用于目标域时的性能发生退化。利用迁移学习的思想,将源域中的知识迁移到无标记的目标域上,是解决以
伴随着人工智能技术的日渐成熟,“智慧城市”这一词汇逐渐被人们所关注。图像的语义分割作为计算机视觉领域中的重要任务之一,在建设“智慧城市”的进程中起到重要作用。比如,在自动驾驶领域中对传输图像进行语义分割帮助车辆进行路线的规划;对飞机着陆前拍摄的俯视图进行语义分割辅助飞行员安全着陆。近年来,基于卷积神经网络的方法在语义分割问题上取得了一系列突破,主流的语义分割网络通常基于编解码器结构。但在大部分语义
随着电子信息技术等相关技术的发展,视频已经逐渐成为生活中不可或缺的信息媒介。当前各种数字环境中存在的海量视频数据具有着极大的价值,因此,利用计算机进行视频的内容理解、信息挖掘已经成为研究者的重要课题。近年来,深度学习在图像处理等领域取得了前所未有的成功,这也促使了基于视频的人体行为识别技术的发展。目前行为识别领域还存在着诸多挑战,比如人体行为在类内和类间均有较大的变化,不同视角、不同速度下的同一类
近年来,随着计算资源以及数据规模的大幅增长,深度学习取得了前所未有的成功。在多个领域和多种任务上,如图像识别、语义分割、文本分类、语音识别、多模态学习等,深度学习都发挥了举足轻重的作用。然而最近的一些研究发现,对抗样本广泛存在于各种深度学习领域,给深度学习系统的现实应用带来了巨大的威胁,尤其是一些安全性敏感的深度学习系统,如自动驾驶、行人重识别、智慧医疗等。对抗样本是一些在自然图像上添加人为构建的
近年来,以深度卷积神经网络(Deep Convolutional Neural Network,DCNN)为代表的人工智能技术迅速发展,在图像识别等特定领域的性能已经接近甚至超过以人类为代表的灵长类动物。然而,在目标/背景复杂多变、遮挡和干扰等复杂开放场景下,DCNN模型的性能容易急剧下降,而灵长类动物仍能快速、准确、稳定地识别目标,这表明现有的DCNN模型在数据驱动的模式下,还很难像灵长类动物大