无监督视频目标分割算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:weiruan007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频目标分割是指将视频序列每一帧中感兴趣的目标区域从背景中分离出来。其中,无监督视频目标分割需要在未给定任何目标信息的前提下,将特定前景目标进行分离,因此成为当前的研究热点和难点。另外,视频序列的复杂性和多变性对无监督视频目标分割的准确性提出了更高的要求。因此,如何充分发掘并有效利用视频序列中丰富的信息以实现更为准确的无监督视频目标分割具有非常重要的研究价值。本文重点研究了如何充分利用视频序列中的深度、光流以及边缘信息实现无监督视频目标分割。首先,对视频帧中深度信息的融入方式进行了研究,然后研究了如何利用光流和边缘信息实现分割算法的完全无监督,最后对多种无监督视频目标分割模型的集成方式进行了研究。本文的主要研究工作总结如下:1、研究基于外观及深度特征的无监督视频目标分割。针对现有无监督视频目标分割算法在利用目标运动信息时,运动估计不准确以及目标与背景之间存在外观和运动混淆的问题,提出了融合外观及深度特征的无监督视频目标分割网络DNet-FAD(Dual Network Fusing Appearance and Depth)。通过引入前景目标和背景之间的深度差异,解决外观和运动混淆以及运动估计存在偏差的问题。同时,研究了深度特征和外观特征融合的层次和方式,提出了三种特征融合策略。最后,在通用数据集Seg Track v2和DAVIS 2016上进行实验证实了本文所提算法的有效性。在DAVIS 2016数据集上,本文算法取得了78.9%的分割精度,与当前主流方法相当;在数据集Segtrack v2上的分割精度达到77.1%,超过第二名12.8%。2、研究基于边缘及运动信息增强的完全无监督视频目标分割。针对现有无监督视频目标分割算法未实现完全无监督的问题,提出了基于边缘及运动信息增强的完全无监督视频目标分割网络BMENet(Boundary and Motion Enhance Network)。首先,提出了一个光流信息优化模块,在实现分割算法完全无监督的同时提高了训练样本的准确性。另外,为使分割网络学习到更为准确的边缘信息,引入了分割图像的边缘损失。最后,在DAVIS 2016数据集上的消融实验证实了本文所提算法BMENet的有效性,分割精度超过基网络15%。并且,与同类方法相比,本文算法取得了第二名的成绩,分割精度与第一名仅相差5.7%。在完全陌生的数据集Segtrack V2上,本文提出的BMENet分割精度达到60.3%,优于训练有监督的方法LVO 3%。3、研究基于多假设传播的无监督视频目标分割算法。为将多个无监督视频目标分割模型集成,以充分发挥现有分割模型的优势,引入了目标跟踪领域的多假设跟踪算法,提出了基于多假设传播的无监督视频目标分割算法。通过在现有分割模型的基础上为目标建立多假设传播树,以获取视频序列每一帧中最优的分割结果,提高现有分割算法的分割精度。在数据集DAVIS 2016上进行实验验证了所提算法的有效性,分割精度超第二个研究点11%。在Segtrack V2数据集上的分割精度取得了第一名,并且超过第一个研究点1.5%。图23幅,表9个,参考文献77篇。
其他文献
在传统区块链中,所有用户的交易信息都是公开的,存在隐私泄露的风险。随着区块链技术的发展,逐渐增强了区块链的匿名性,但是匿名性的增强带来了难以审计和监管追责的问题。与此同时,随着区块链越来越广泛的应用,使其在信息监管、隐私保护、数据更新等方面存在切实的编辑需求,例如修改错误数据、更新过期信息等。因此,本文围绕可审计的区块链隐私保护技术和可编辑区块链技术进行讨论,主要研究工作有以下两点:(1)为了在保
文本分类是自然语言处理中一个基础且至关重要的任务,在情感分析、舆情监测、新闻过滤等方面有广泛的应用。传统的卷积神经网络、循环神经网络等模型缺乏获取非连续长距离语义信息的能力,而且无法处理文本的语义树、句法树等非线性结构数据,最近提出的图卷积文本分类模型可以较有效地解决上述问题。但现有的图卷积文本分类模型还存在以下不足:(1)现有的单通道空域图卷积模型未能有效地利用文本的语义、句法等隐含信息,限制了
在科学技术发展不断推进的同时,电子设备的应用也更加广泛,图像已经成为数字信息时代中的重要资源,但是随着编辑软件的普及使得图像的真实性面临巨大风险。近几年来,政治时事、军事国防、学术研究等领域的图像造假事件屡见不鲜。为了打击不法分子的图像篡改行为,数字图像取证技术开始逐渐发展起来。操作取证是图像取证领域的重要分支,其中对比度增强操作是最为普遍且高效的图像编辑方法,并且常被篡改者用来消除伪造图像中视觉
激光选择性熔化(Selective Laser Melting,SLM)技术是一种新型的增材制造技术,其成型原理是利用高能量密度的激光输入能量,根据预先设定的轨迹进行扫描,使粉末材料有序熔化,形成熔池,再经冷却凝固成型,SLM技术由于可以快速成型出力学性能良好,且具备较高致密度的复杂金属零件而得到快速发展,但该工艺仍然存在一定缺陷,如难以成型较大尺寸零件,且成型件内部存在残余应力以及翘曲变形程度大
图像数据在人们日常的沟通和交流中不可或缺,然而图像在传输和接收等过程中,往往会因为硬件设备等原因受到噪声的干扰,这会降低图像的质量,并影响后续对图像的处理与分析。因此,去除图像噪声至关重要。目前,如何在去除噪声的同时保护图像的纹理细节仍是亟待解决的问题。近年来,稀疏表示理论的兴起使图像去噪取得了较大的突破。因此,本文以稀疏表示理论为基础,对稀疏变换学习图像去噪算法以及组稀疏残差约束图像去噪算法进行
多标签文本分类是自然语言处理领域的一项重要任务,它旨在将一段文本内容分给一个或者多个类别。这一任务的难点主要在于标签的数量庞大,并且标签呈现出不均衡的长尾分布,即大量尾标签的出现次数远远少于小部分的头标签。尽管相较于传统的方法,基于神经网络的方法能够提取到更丰富的文本特征,并提升分类的性能。但是这些方法通常假定标签之间相互独立,不能充分利用标签中包含的信息,例如标签之间的相关性。然而标签之间通常具
在现如今的互联网世界中,多视图数据呈现出爆发式增长的趋势,如何高效地挖掘多视图数据中的信息并服务于大众已经成为学术研究众多问题之一,其中多视图数据的表示学习也是一大热点。多视图数据是指通过不同的视角、不同的形式对同一个对象的客观反映的数据集合。多视图数据有两个显著的特点:一致性和互补性,不同的视图往往反映一致对象的互补特性,因此通过观测多视图数据能够更加充分的理解对象的特点。除此之外,多视图数据也
中医是重在调理、以预防为主的独特的传统医学,经过代代传承至今。经典医案作为当今中医的成功案例被各大期刊杂志记载,能够对临床诊疗提供理论支撑。但在临床应用上,由于不同医生对概念表达多元化,局限于过去构建的概念库,难以将新的表达对应到已有的概念上。因此,进行症状的概念映射成为获取患者特征的关键步骤。来自古现代中医书籍等多渠道的知识,所构建的知识图谱能够建立症状,药物等之间的关系。本文基于较大规模的医案
随着互联网的飞速发展,缓存技术(caching)的应用范围越来越广,从最初的操作系统和CPU,到如今的服务器和边缘节点。随着边缘计算等概念的相继出现和普及,缓存有了更丰富的应用场景和落地方式。通常来说,对于热点内容的缓存能减少不必要的开销并提升效率。在边缘计算场景下,利用边缘节点靠近用户的特点,预先在边缘节点中缓存热门视频,能缩短用户获取视频的时间,大幅提升用户体验。然而,热门视频可能会有很多,单
基于人脑磁共振图像的个体认知参数定量估计一直是认知神经科学领域的一个研究热点,这类研究不仅可以探究大脑结构和功能的个体差异性,也有助于神经精神类疾病的辅助诊断与早期预警。然而目前大部分研究都是基于单标签技术而不是多标签技术,而多标签学习考虑了标签之间的相关关系,可以提供更丰富的信息,从而提高预测的准确率。目前的个体认知参数定量估计研究大多还是基于静息状态功能磁共振图像(fMRI)开展的,近期研究表