【摘 要】
:
近来几年,由于有监督的深度学习技术飞速迭代进步,很大程度地推动了人工智能应用的发展[1]。基于大规模有标注数据集[2]的出现,才有了有监督学习的深度学习的发展。但是由于手工标注数据集既昂贵又耗时[3]、数据集标注错误难以避免、标注时需要面向领域的专业知识、原始数据质量参差不齐,这些问题严重制约着高质量标注数据的产生。因此,面向实际场景的数据集标注,具有极强的现实意义和研究价值,是一个亟待解决的问题
论文部分内容阅读
近来几年,由于有监督的深度学习技术飞速迭代进步,很大程度地推动了人工智能应用的发展[1]。基于大规模有标注数据集[2]的出现,才有了有监督学习的深度学习的发展。但是由于手工标注数据集既昂贵又耗时[3]、数据集标注错误难以避免、标注时需要面向领域的专业知识、原始数据质量参差不齐,这些问题严重制约着高质量标注数据的产生。因此,面向实际场景的数据集标注,具有极强的现实意义和研究价值,是一个亟待解决的问题。针对上述问题,本文开发了面向特定应用领域数据集的标注系统。首先,为了提高人工标记的效率和正确率,该系统利用推荐算法,根据标记人员选择的图片,相应地向标记人员推荐最为类似的图片,并根据标记人员的标记进行反复推荐,直到所有标注工作结束;并且运用后续章节提出的标注算法进行图片推荐,辅助人工标注,最终实现图像级别标注的后台框架。其次,随着基于对抗生成网络的图像合成技术的快速发展,为待标注的数据集中混入合成样本提供了契机,为了保证待标注数据的真实性,因此在数据标注之前要进行预处理,需要对待标注数据的真实性进行检测[4];提出了融合人脸检测注意力机制的合成图像检测网络,在不改变全图输入的情况下,将人脸检测网络基于待检测图像获得包含人脸区域的显著性特征图(face map),融合检测主干网络输出的特征图(feature map),从而增强人脸区域的特征,抑制非人脸区域的特征,实现对待标注数据中合成样本的自动化清洗;实验结果表明,提出的方法可以准确地检测合成样本,确保了待标注数据集的真实性。其次,进行交互式标注时,针对随机和余弦距离相似度推荐效率低的问题,提出利用Face Net[5]网络提取的人脸特征,基于大间隔最近邻居(large margin nearest neighbor,LMNN)度量建立了“视觉混淆图”的结构,通过“视觉混淆图”系统向标注推荐视觉上最易混淆的图像进行图像级别的标注,达到提升人脸标注过程的效率和正确率的目的。最后,进行图像像素级别标注时,利用基于Deeplab-V2[6]架构极值点交互式标注的方法,标注员输入对象的四个极值点(顶部,底部,左侧和右侧像素)作为标注的指导信息,在卷积神经网络(Convolutional Neural Network,CNN)的输入[7]中向图像添加了一个额外的通道,该通道包含以每个极值点为中心的高斯函数值,以较少的用户输入,获得比经典的交互式像素级别标注方法(例如Grab Cut,Random Walker和i FCN)更好的标注效果。
其他文献
移动机器人同步定位与建图(Simultaneous Localization and Mapping,SLAM)方法是用于机器人环境感知和导航的主流建图方法。传统的视觉SLAM方法中RGB-D信息非常重要,系统可以从RBG-D相机中获取颜色和深度等数据,其中,在获取深度数据的过程中会受到距离、光照等因素的限制,难以获得较好的建图效果。单目相机结构灵活、价格低廉,在实际中有较高的应用价值。如何使SL
受限于高中教学课时、安全风险及新冠疫情等因素,户外远距离开展研学活动以培养学生的地理实践力较为困难。本文以重庆南山风景区为研学活动基地,依托基地的研学资源,从研学设计思路、研学主题及目标设计入手,围绕“初识南山、探秘南山、造化南山”三大主题进行研学内容、研学任务、活动实施及评价的系统设计。该设计方案有利于提高学生的地理调查与考察能力,增强学生地理实践力。
近年来5G技术发展成熟,移动设备中相机配置越来越高,人们更愿意拍摄视频上传到网络上,互联网上视频数量持续急速增长,因此迫切需要高效的视频处理方法来满足海量视频处理的需求。视频分类技术是根据视频中内容自动判断视频所属类别的技术,是视频处理领域的重要组成部分,是计算机视觉领域的基础研究课题,对视频分类技术进行研究是必要的,同时视频分类技术也可以被广泛应用到生活中的各个领域,所以对视频分类任务的研究正在
在这个计算机、通信发展迅速的年代,人们接触到的文本、视频、音频,包括图像等多媒体信息越来越多。通过互联网,人们正在一步一步的实现全球多媒体信息的共享。用户对多媒体信息的查询也变得越来越普遍。各种新的应用需求也随之而来。跨媒体检索技术,指的不同模态之间可以相互交叉检索的检索方式,即通过某一种模态的实例检索出与之语义相关的其它模态的样本。跨模态检索到的结果与单模态相比,内容丰富,能将查询对象更加立体地
近几年,在计算机视觉领域,目标跟踪问题成为研讨热点之一。视频单目标跟踪是计算机视觉的重要研究课题,在视频监控、机器人、人机交互等方面具有广泛应用。作为计算机视觉领域的关键问题,单目标跟踪算法可以根据在连续图像序列中的跟踪信息,绘制给定物体的轨迹信息,方便后续进行行为分析和异常检测。大数据时代的到来及深度学习方法的出现,为视频目标跟踪的研究提供了新的契机。因此,单目标跟踪问题具有重要的理论意义和研究
视频目标分割是计算机视觉的重要研究内容,在视频监控以及人机交互等领域具有广阔的应用前景。随着深度学习在视频目标分割任务上取得重大突破,如何将性能优异的视频目标分割模型快速应用到实际的监控场景中,已经成为建设智慧城市、维护公共安全的迫切需求。本文针对实际应用场景下的视频目标分割问题,着重解决在实际应用过程中进行快速准确的视频目标分割,论文的主要创新点包括以下几个方面:(1)提出了一种基于目标注意力机
当前随着深度学习研究的日益深入,深度神经网络算法在数字图像处理、语音识别、自然语言处理等诸多领域崭露头角,呈现出很好的发展态势。三维卷积神经网络是深度神经网络的一个分支,相比普通的神经网络,它可以适应更高维度、更复杂的数据处理,比如视频分类、医疗图像分割、点云数据处理等。三维卷积神经网络的优秀性能已经得到了公认,但其巨大的计算量和数据量也限制了其推广应用,因此研究三维网络的硬件加速方法成为了一种必