融合检测与跟踪的半自动视频目标标注

来源 :计算机工程与应用 | 被引量 : 1次 | 上传用户:fox542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对视频图像连续帧间的目标具有冗余性,采用手动标注方式耗时耗力的问题,提出一种融合检测和跟踪算法的视频目标半自动标注框架。利用手动标注的样本离线训练改进YOLO v3模型,并将该检测模型作为在线标注的检测器。在线标注时在初始帧手动确定目标位置和标签,在后续帧根据检测框与跟踪框的IOU(IntersectionOver-Union)值自动确定目标的位置,并利用跟踪器的响应输出判断目标消失,从而自动停止当前目标标注。采用一种基于目标显著性的关键帧提取算法选择关键帧。采用自建舰船目标数据集进行了改进YOL
其他文献
针对传统长短时记忆网络(LongShort-TermMemory,LSTM)和卷积神经网络(ConvolutionNeuralNetwork,CNN)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于LSTM-Attention与CNN混合模型的文本分类方法。使用CNN提取文本局部信息,进而整合出全文语义;用LSTM提取文本上下文特征,在LSTM之后加入注意力机制(Attention)提取输出信息的注意力分值;将LSTM-Attention的输出与CNN的输出进行融合,实现了有效提取文本特征
在聚类研究中,通常认为数据集的对象、属性等方面是满足独立同分布的,它们之间是互不影响的,然而实际上它们之间存在着某些潜在的联系,即非独立同分布。为了更好地挖掘其存在的潜在关系,将数据集进行二次幂处理,计算皮尔森相关系数后得到二次幂耦合的数据集样本,为了解决K-means聚类算法存在选取初始中心点的敏感性问题,基于密度的思想,通过计算密度参数合理调整高密度区域,利用聚类迭代的方法进行选点,将高密度区域中的密度最大点作为初始点,距离初始点最远点作为第二个点,以前两个点为中心聚类迭代得到两个质心,将距离两个质心
针对动态复杂场景下的操作动作识别,提出一种基于手势特征融合的动作识别框架,该框架主要包含RGB视频特征提取模块、手势特征提取模块与动作分类模块。其中RGB视频特征提取模块主要使用I3D网络提取RGB视频的时间和空间特征;手势特征提取模块利用Mask R-CNN网络提取操作者手势特征;动作分类模块融合上述特征,并输入到分类器中进行分类。在EPIC-Kitchens数据集上,提出的方法识别抓取手势的准
域名生成算法(DGA)存在变化多、部分类别样本难获取的特点,使得采用传统机器学习的恶意域名检测模型准确性不高。提出一种基于迁移学习和多核CNN的小样本DGA恶意域名检测模型。该模型将目标域名映射到向量空间中,使用样本充足的DGA种类进行预训练,并迁移预训练得到的参数到小样本检测模型。采用多核CNN小样本分类模型根据发音习惯进行域名特征提取并分类。通过实验对比发现,无知识迁移的小样本分类模型只有11类域名准确率超过92%,经过迁移学习的多核CNN模型20类准确率超过92%,11类准确率超过97%,检测效果接
在现实世界中,可用的训练数据通常较少,且很容易过时,所以需要不断采集和标记大量新的数据集;针对此问题,提出一种基于SAMME和TrAdaBoost算法的迁移学习分类方法。该方法的核心思想是:从老视频流数据集中筛选出有用的样本来帮助模型识别新的未知视频流集样本,这里新老视频流数据集的样本特征分布是不相同的。同时该方法结合SAMME算法将TrAdaBoost算法从只可实现两分类扩展至多分类。实验结果表
目前基于彩色图像的手姿态2D关键点热图估计大多数采用卷积姿势机或沙漏网络进行,但这两种网络不能同时满足高分辨率表示保持学习和多尺度特征融合。针对该问题引用了一种多尺度高分辨率保持的网络,该网络采用高低分辨率表示并行设计的结构,并通过融合所有分辨率表示增强各分辨率表示的特征,而且拥有多个阶段提取高质量特征用于2D热图估计。为得到3D手姿态,还使用了全局旋转视角不变的方法将2D热图映射到3D姿态。在三
近年来,基于全卷积网络的显著性物体检测方法较手工选取特征的方法已经取得了较大的进展,但针对复杂场景图像的检测仍存在一些问题需要解决。提出了一种新的基于全局特征引导的显著性物体检测模型,研究深层语义特征在多尺度多层次特征表达中的重要作用。以特征金字塔网络的编解码结构为基础,在自底而上的路径中,设计了全局特征生成模块(GGM),准确提取显著性物体的位置信息;构建了加强上下文联系的残差模块(RM),提取
矢量路网的二维图像表达旨在建立道路到图像的转化关系,对于道路交通流预测等实际问题具有重要研究价值。针对目前研究存在的空间拓扑关系丢失和图像分辨率不易确定等问题,提出了一种矢量路网的自适应二维图像表达方法。该方法能够自适应不同路网结构,在最大维持矢量路网拓扑关系的前提下,将道路路段一一映射到像素单元上,从而生成矢量路网的紧凑二维图像。选取国内外数百个城市不同类型的矢量路网对算法的性能进行验证,通过与
针对雾天车牌图像模糊、车牌识别率低的问题,给出了车牌图像色彩迁移与正则化约束去雾算法。算法主要包含色彩迁移去雾和文本修复两个模块。采用MKL(Monge-Kantorovitch Linear Colour Mapping)色彩迁移算法,恢复雾天车牌颜色信息实现去雾;利用车牌的文本像素的强度和梯度特征对车牌图像进行正则化约束,实现车牌中文本的修复。实验结果表明,无论针对合成车牌雾图还是自然车牌雾图
语义相似度计算旨在计算文本之间在语义层面的相似程度,是自然语言处理中一项重要的任务。针对现有的计算方法不能充分表示句子的语义特征的问题,提出基于Transformer编码器的语义特征抽取的模型TEAM,利用Transformer模型的上下文语义编码能力充分提取句子内的语义信息,对句子进行深层语义编码。此外,通过引入交互注意力机制,在编码两个句子时利用交互注意力机制提取两个句子之间关联的相似特征,使模型更擅长捕捉句子内部重要的语义信息,提高了模型对语义的理解和泛化能力。实验结果表明,该模型在英文和中文的语义