【摘 要】
:
自2012年深度卷积神经网络在分类任务上的成功以来,计算机视觉领域便迎来了蓬勃的发展。但是,随着研究的深入,计算机在关于视觉单一模态的众多任务中均已超过人类认知的能力。考虑到未来人机交互,联合传统计算机视觉和自然语言的一系列基本挑战逐渐受到研究者们的关注。在计算机视觉三大任务之一的目标检测的基础下,基于语言描述的目标检测在2014年被提出。基于语言描述的目标检测旨在通过物体的自然语言描述在对应图像
论文部分内容阅读
自2012年深度卷积神经网络在分类任务上的成功以来,计算机视觉领域便迎来了蓬勃的发展。但是,随着研究的深入,计算机在关于视觉单一模态的众多任务中均已超过人类认知的能力。考虑到未来人机交互,联合传统计算机视觉和自然语言的一系列基本挑战逐渐受到研究者们的关注。在计算机视觉三大任务之一的目标检测的基础下,基于语言描述的目标检测在2014年被提出。基于语言描述的目标检测旨在通过物体的自然语言描述在对应图像中定位出目标物体。在标准的基于语言描述的目标检测中,科研工作者们总是假设数据集中存在一个类别标签静态不变的目标物体的集合,其中训练数据中每个类别的样本数据是由一个对图像中目标物体的语言描述,一张图像和图像中目标物体的区域组成。本文研究了动态场景下基于语言描述的目标检测,其中数据的目标物体的类别是随时间增加的。在这种动态场景下,一方面模型需要保持参数的更新以适应新出现的数据类别。另一方面,模型需要记忆之前学过的数据类别去避免灾难性遗忘的发生。最后,本文提出了新的记忆机制,称作是双重模块化记忆机制,该机制启发自对数据中语言描述的观察。本文发现在该领域数据中语言描述,往往其不仅包含物体的类别和属性信息,其还包含物体的几何位置信息和物体与图像中其他物体的关系信息。而后两个信息是可以在不同类别的目标物体的定位过程中所迁移使用的。如本文方法的名字所示,本机制通过两个方面来帮助模型记忆之前学过的目标物体。其中,隐性记忆元件基于模型各个模块(物体视觉模块,物体位置模块和物体关系模块)对检测目标物体所作的帮助来衡量各个模块参数的重要程度去决定哪些参数值得记忆。而显性记忆元件则筛选了一些在之前学过的样本中具有较高损失和其所用知识很难在多个类别间迁移使用的样本数据。同时该元件维持了一个固定大小的缓冲池去存储这些样本去在后续模型训练中反复利用。相比于标准的增量学习,本文提出的方法更适应于基于语言描述的目标检测。因为该方法显性考虑了语言和图像的双模态结构。后续在本文为此任务构建的三个数据集上的详尽实验验证了本文提出方法的有效性。
其他文献
无人驾驶系统是一个非常庞大,复杂的各种高级模块组成的综合性系统,在满足基本驾驶功能的同时,更重要的是作为智能系统,需要和人类进行交互,分析人类的驾驶意图,将人类意图结合到驾驶策略中。同时,为了能够更加安全的确保驾驶过程的安全以及驾驶意图的正确执行,智能驾驶系统需要能够感知并分析驾驶员/乘客的状态,从而确保命令的正确下达与驾驶过程的相对安全,因此本文从两方面出发建立基于深度学习的驾驶决策分析系统,一
近年来,深度学习在许多领域得到了广泛的应用,也有许多针对多任务的深度模型。多任务学习在建模的过程中,既需要考虑任务之间的差别,避免负向的增长,又需要考虑到任务之间的共同之处。多任务学习的优势也正在于此。在现实世界中的有些任务间存在千丝万缕的联系,分解成多个子任务去独立求解是不正确的。而在实际的任务中,通过更多任务的辅助或者对照,可以帮助关注到最重要的特征,提升泛化性,提高性能。但基于深度学习的多任
随着人工智能技术不断发展,当今社会,语音不仅仅是人类之间通信交流的手段,也成为人机交互的重要桥梁。近年来,语音识别技术发展飞速,开始逐渐应用到各个领域。深度学习的加入,使得语音识别的准确率有了质的飞跃,但是伴随而来的是网络模型越来越大,难以在嵌入式设备上移植和使用。而且语音数据存在一定的隐私性,存在收集困难的问题。并且在实际的语音场景中,总是存在各种噪音,包括但不限于环境噪声、设备噪声、发动机噪声
近年来,随着深度学习和计算机技术的快速发展,图像分类技术已逐渐趋于成熟,其应用在日常生活中的各个领域也十分常见。然而,细粒度图像分类作为图像分类的重要的一个分支,相较而言更具有挑战性,还需要进一步发展。普通图像分类一般是区分不同的大类,不同类型图像之间的差异较大;而细粒度图像分类需要在同一个大的类型下区分不同的子类型。因此,细粒度图像不同子类之间的差异很小,具有类间方差较小而类内方差较大的特性。其
人体检测是当前机器学习领域研究的热点,该技术在虚拟现实、自动驾驶等领域有非常重要的意义。随着深度学习的快速发展,人体检测技术已经取得了不错的进展。但当前人体检测算法在复杂场景下仍然面临目标多尺寸、遮挡等问题,检测精度和速度往往顾此失彼,使得该技术在现实应用时受到一定约束。此外,智能安防、人机交互等领域迫切需要对人体提取更高级的语义信息,即人体行为识别。人体行为与人体姿态联系紧密,尽管基于人体姿态的
近年来,图像超分辨率重建算法的研究取得了重大进展。一般情况下,和较低分辨率图像相比,高分辨率图像可以展示更充分的纹路、更明显的边沿架构,使人类从中获取到更多的有助于图像理解的信息。所以高分辨率的图像更有利于后续对于图像进行分解、处理和应用,同时也可以提高人类的视觉享受。图像超分辨率主要是通过低分辨率图像恢复图像细节,生成对应的高分辨率图像。通常来说,网络越深重建的图像效果越好。但是不计后果地增加网
随着现代科技的革新与发展,海量的互联网用户数据在网络中产生,然而集中式地将数据收集到数据中心的传统方法具有很高的风险与成本,在机器学习中保护隐私的迫切需求促使了联邦学习技术的诞生。而边缘网络的发展让网络服务得以从云端下沉到边缘,硬件设备能力的提升也促进了边缘计算的普及,这使得联邦学习的分布式架构能够灵活地应用于网络中。然而,尽管这项技术能够协调大量的用户在其设备上完成训练任务。但联邦学习要求服务器
深入理解图像的语义信息是计算视觉领域发展的关键,然而在视觉任务中,高级语义信息的获得并不容易,这导致视觉场景图的生成成为一项极具挑战性的任务。视觉场景图生成能帮助本文获得更高阶的语义信息,它作为桥梁连接了物体检测和场景理解,在物体检测的基础上,对物体之间的关系进行建模识别,并使用“主语-谓词-宾语”这样的三元组结构表征物体间的有效关系,最终通过连接这些三元组构成一幅有向的视觉场景图。尽管以往的工作
传统的图像分类任务在很大程度上取决于大规模的数据集,该数据集可为所有类别提供经过标记的样本。但是,在现实世界中,图像的类别遵循长尾分布,其中大多数类别很少出现,因此很难为这些类别收集大量标记的样本。另一个挑战是新定义类别的爆炸式增长,为这些新类别找到足够多的范例是非常困难的。近年来,为了解决这些类别的分类问题,零样本学习得到了广泛的研究。人类可以通过现有的知识动态地创建新的类,而不需要视觉数据。例
随着基于深度学习的算法出现,各种计算机视觉应用都取得了令人瞩目的进步。但是,大量现有工作已经清楚地证明了深度神经网络(DNN)容易受到对抗样本的攻击。而对抗样本攻击就是在输入数据中添加细微的、人眼不易察觉的噪声,从而误导深度网络模型的预测。这些对抗攻击的存在有利于研究人员了解深度网络模型的脆弱性。目标攻击是指攻击方想要将模型预测结果改变为某些提前指定的目标类别中。而目标攻击又可以根据攻击者对于所攻