基于深度学习的视频镜头检测与对象分割

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:a137167443
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,越来越多的视频数据等待着被处理、分析和挖掘。然而,很多视频在产生时并没有进行有效的标注甚至没有标注,这给人们搜索并处理他们感兴趣的视频部分带来了极大的挑战,因而开发一套高效的视频结构化分析技术是很有必要的。其中,视频镜头检测技术和视频对象分割技术是实现视频结构化分析的基础和关键步骤。针对视频镜头检测本文做了如下贡献:提出了一个高效的视频镜头检测框架,指出高效的模型中应必备的三个要素(预处理,特征提取和检测算法),并给出了相应的设计建议。根据提出的框架本文进一步实现了基于深度学习的视频镜头检测算法。算法思路如下:首先应用框架内详细介绍的基于二分比较的方法对给定视频进行预处理,滤除大量的非镜头帧并得到可能包含镜头边界的候选段。然后使用AlexNet对每段提取深度特征,通过分析、筛选得到具有强表达能力的fc-6特征对候选段内的帧进行高效表征。最后分别针对突变边界、渐变边界候选段应用相应的检测算法:对于突变边界检测,本文综合考虑了段内平均相似度和连续帧间相似度的关系并定义了相似度“显著”改变的标准,进而能够精确检测得到突变边界的位置;对于渐变边界检测,本文通过对渐变边界的分析得到了其通用的“倒三角形模式”,并基于该模式设计了对应的匹配准则,保证了渐变边界检测过程的高效性和稳定性。实验证明基于深度学习的视频镜头检测算法在突变边界和渐变边界检测上都要显著优于已有算法。针对视频对象分割本文做了如下贡献:提出了基于双流深度编码-解码网络的视频对象分割算法。本文认为在视频对象分割任务中,帧内信息分割和帧间信息分割都是不可或缺的,因而建立了两路网络分别用于分割单帧图像和帧间运动信息。两路网络有着完全相同的编码-解码结构,唯一的不同是它们的输入,前者是视频序列中的帧,后者则是该帧对应的光流场RGB图。编码结构的主要作用是高效地处理输入图像得到一个“粗”分割结果——分辨率比较低、物体位置明确但边界及细节信息不清晰。解码结构则是利用编码过程中学习得到的结构化特征对得到的“粗”分割结果进行逐步细化,递归地改进分割结果的边缘和细节信息,最终得到一个分辨率等同于输入图像的“细”分割结果。最终两路网络得到的结果经过融合提升得到更好的分割结果。实验证明基于双流深度编码-解码网络的视频对象分割算法在性能上相比于已有算法更有竞争力,是一种高效的分割算法。
其他文献
图像检索是机器视觉的重要研究方向,在电子商务、公共安全等领域有广泛的应用。近年来随着深度学习的发展,基于内容的图像检索技术取得了显著突破。这种“以图搜图”的检索方
目前,神经网络已被证明是数据挖掘中一种重要的分类技术,然而,神经网络映射后得到的新空间在不同程度上影响了点的分布并进一步影响分类性能。在之前的研究中,形成的空间被称为“分区空间”,它可能是不规则区域或超球体的内部区域。因此,分区空间的质量也成为神经网络分类器评估的一部分。作为可再划分分区空间的神经网络分类器,最近邻分区方法通过在分区空间中生成任意形状的边界来改进神经网络分类器,但是最近邻分区方法存
背景:舌癌是最常见的口腔鳞状细胞癌,临床上常以手术结合药物对舌癌患者进行综合序列治疗。但目前临床传统化疗药物,如顺铂等(Cisplatin,CDDP),大多存在严重不良反应,加重患
目的:通过对比分析经穴与非经非穴针刺对功能性便秘(Functional Constipation,FC)患者边缘系统脑区低频振荡振幅(Amplitude of Low-Frequency Fluctuation s,ALFF)和静息态功
随着线上信息数据的大量增长,“信息过载”成为不可忽略的问题,推荐系统是克服此问题有效的手段之一。其中,用户与商品间关系的建模在推荐系统中扮演着重要的角色。但现存的方法中,大多数模型是采用了一种线性的方式对此建模,这可能会限制模型的性能。尽管最近的一些工作已经运用深度学习技术去捕捉用户与商品间的非线性关系。但当神经网络被使用时,这里仍存在两个潜在的问题。第一个问题是随着神经网络层数的增加,整体算法的
圆周SAR(Circular SAR)是能全天时全天候工作的一种新兴成像雷达,其雷达随着载体在某一高度做圆周运动,天线波束中心始终指向成像区域中心。在这种运动模型下,雷达能够全方位的获得目标的反射信息,使得方位向的频谱信息扩展到最宽,不仅获得了更多目标信息,也大大提升了方位向的分辨率,有着传统直线SAR无法比拟的优势。现有的圆周SAR成像算法中,时域的后向投影算法(Back Projection,
背景:重症肌无力(myasthenia gravis,MG)是一种自身免疫性疾病,由针对神经肌肉接头突触后膜蛋白的自身抗体导致神经肌肉接头传递障碍。重症肌无力在发病年龄、受累肌群、病程
随着信息时代的飞速发展和用户数据量的快速增长,数据库的性能变得越来越重要。主存哈希连接算法作为数据库连接操作的一种实现,具有速度快、应用范围广的特点,一直受到国内外学者的普遍关注。根据哈希连接算法是否针对硬件架构特性进行优化可以将其分为两大类型,分别是硬件非敏感哈希连接算法和硬件敏感哈希连接算法。新一代众核处理器Knights Landing Processor(KNL)具有与多核处理器不一样的架
自由空间光(Free-Space Optical FSO,)通信,又称无线光通信,是一种具有通信频带宽、保密性强、容量大及功耗低等多种优点的新兴通信方式,在目前的通信领域中受到了极为广泛的关注。准循环LDPC(Quasi-Cyclic LDPC,QC-LDPC)码作为一种实用性极强的码,其校验矩阵拥有准循环特性,能够在降低构造复杂度的同时获得优异的码性能。将比特交织迭代译码编码调制(Bit-Int
目的:探讨circEPSTI1在胃癌组织和细胞中的表达及功能,并分析其在胃癌中的临床意义。方法:采用qRT-PCR法检测circEPSTI1在胃癌组织与非癌胃粘膜组织以及不同胃癌细胞与正常胃