基于自监督的深度时序特征学习算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:piaoye2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频可以提供比图像更丰富的视觉信息,从视频中提取的时空特征可应用于多项视觉任务。如:视频检索、动作识别、视频生成等。在现有的视频时序特征学习的模型训练过程中,视频被随机输入到网络模型中来学习时序特征。但在现实情况下,视频具有不同级别的帧/视频段的序列显著性,模型更容易准确识别具有帧/视频段序列显著性高的视频,而不容易准确识别帧/视频段序列显著性低的视频。因此,有效利用帧/视频段序列的显著性将有利于视频时序特征的有效学习,有利于提高相关视觉模型的性能。本文的主要内容和创新点包括:(1)为衡量视频中帧/视频段的序列显著程度,提出了视频序列显著性(VSS)的新概念,并用于度量视觉模型对视频内容理解的难易程度。进而,提出一种基于VSS的逐步自监督时空特征学习算法。该算法包括模型预训练和模型迁移两个阶段。在模型预训练阶段,通过执行视频段序列预测任务使模型从具有不同的VSS值的视频中学习时序特征,所有视频信息按VSS值有序输入3D CNNs(C3D、R3D和R(2+1)D)。首先,初始化所有视频的VSS值;然后,根据视频段序列预测结果更新每个视频的VSS值,根据更新的VSS值对视频进行排序,并设置了一个超参数,将排序视频分成N个视频组;再将这些视频组按VSS值的降序输入到网络模型里进行迭代训练,每次迭代时更新每个视频的VSS值,直到模型收敛为止。实验表明:本文提出算法比基准算法在视频段序列预测任务上的识别准确率提升了2.9%。而在视频段检索、视频检索和动作识别等任务上相对于基准算法也有较大提升,从而验证了提出算法的有效性和优越性。(2)针对视频生成任务中时序特征难以有效学习的问题,本文对基于自监督时空特征学习的视频生成对抗网络进行了改进。在生成器网络中利用基于L2正则化损失函数来解决模型过拟合问题。而对于判别器网络的3D CNN模块,在其前四层卷积网络后增加了3D平均池化层3DAvg Pool,来使模型参数减少,从而判别出合成视频和真实视频,以及识别帧之间运动的时序关系是否正确。通过在相关数据集上的视频生成实验表明:本文算法与基准算法相比,其中各项评价指标得到了有效的提高,生成的视频更加逼真。
其他文献
近年来,数字化技术在文物的研究、保护上取得了飞速发展和应用。传统的三维扫描建模,不能了解文物内部的损毁情况、结构等。计算机断层成像即CT(Computed Tomography)技术,可以通过无损检测技术重构文物的内部构造。CT技术的核心是图像重建算法,代数重建算法(Algebraic Reconstruction Techniques,ART)是一种迭代算法,适合于不完备投影情况下的图像重建,其
Hashtag在社交平台中很常见,它是用来标注主题和参与话题讨论的一种方式,它能够提升信息组织和信息传播的效率,从而提高社交网络中的用户参与度。标注Hashtag是一个既复杂又费时的过程,因此大部分用户不愿手动为社交内容添加一些Hashtag。针对这个问题,如何高效地根据用户发表的内容自动推荐Hashtag成为了热门的研究话题。利用文本数据进行Hashtag推荐的研究相对较多,而集中在图像或者将图
化学是中学阶段的重要课程,化学实验则是其典型教学场景,但传统化学实验存在许多弊端,如:危化品实验具有风险、教师无法充分指导全部学生等。虚拟教学一定程度上能够弥补传统教学手段的不足,但多数系统只局限于实验功能的考虑,没有完全解决传统教学弊端的同时也忽略了系统用户体验和可用性等因素。在此背景下,针对传统化学教学及现有虚拟化学课堂的不足,本文设计了虚拟化学课堂教学系统。通过探究虚拟现实相关开发工具,本文
颅骨面貌复原(简称颅面复原)是未知身源颅骨身份认定重要方法之一。颅面复原技术可以将人类学、法医学等相关领域知识进一步扩宽,受到国内外各学科的高度重视。但由于颅骨面貌数据较少,现有颅面复原方法获得面貌模型具有一定局限性。复原结果仅含有物理几何信息,缺纹理、睁眼状态等真实感信息,这些信息缺失均影响进一步颅骨身份识别。本文提出了一种基于对抗生成网络的P-GAN来重现逼真面貌,以及使用对抗自编码网络将真实
科学技术的进步,最终应当推动社会的发展,提高人民的生活质量。目前果蔬称重贴码有专人称重和顾客半自助称重两种方式。专人称重方式,人工成本高,不适合投放多台设备;半自助称重方式由顾客在上百种果蔬中进行选择称重,虽然可以投放多台设备,但单次称重时间花费较长,这两种称重方式在超市人流量较大时,都会导致拥挤现象。因此,设计研发一套基于目标检测的果蔬自助称重系统是非常有必要和有价值的。本文所研究的内容:基于R
传统的图像分类任务需要大量的有标签数据进行训练,但是在现实生活中,数据的收集与标注是非常困难的,因此,如何在样本不足甚至没有样本的情况下对物体进行识别的零样本学习算法成为研究热点。零样本学习是迁移学习的一个分支,旨在对训练过程中没有出现过的类别进行分类。目前比较主流的研究方向有基于语义嵌入空间的零样本学习和基于视觉嵌入空间的零样本学习。本文分别对这两种方向的算法进行了研究改进,主要工作内容如下:(
中国书法是中国传统文化的艺术瑰宝,是一种独特的视觉艺术,具有很高的研究价值。随着博物馆的数字化转型,采用计算机技术对石刻碑文进行数字化保护需求迫切。但是,古代碑文由于时间跨度较大、人为初期保护意识较差以及自然天气的影响等,存在大量的背景噪声,导致传统的数字化技术难以得到较好的视觉效果。为此,本文针对古代碑文的去噪和识别问题,展开了细致研究。首先介绍了对古代碑文数字化处理的背景与意义,其次分析了图像
随着人类社会文明的进步,人与人之间信息的传递由听觉主导逐渐让位于视觉主导,时至今日,“读图时代”的到来愈发成为人们的共识。图符语言作为一种基于图像与意象的视觉信息传递媒介,丰富了人们日常交流的表达形式。针对西北大学J824实验室提出的一种图符语言“和”,本文对“和”语言移动端输入法——和弦展开以下研究:1.分析国内外图符语言的研究现状,结合口语文化背景对“和”语言口语化模型进行建模,给出了“和”语
从CT血管造影数据中获取可靠的冠脉中心线对临床实践具有重要意义,冠脉中心线可以为冠脉的狭窄评估和动脉粥样硬化斑块提供先决条件,所以学者们开始用不同的研究方法从计算机断层扫描血管造影(CTA)中提取中心线。由于冠脉中心线细小、结构复杂,并且存在低剂量成像噪声以及呼吸心跳引起的重建伪影等问题的影响,导致冠脉中心线的获取非常困难。为此,本文提出了一种基于深度追踪网络的多任务冠脉中心线提取方法。文中的贡献
人群密度估计是人群计数工作中的重要计数方法。目前,大多数人群密度估计方法都侧重于研究单视角图像内人群头部特征的提取方式,但由于视角信息的不足,这类方法难以解决人群遮挡和广域计数等问题。因此,为了解决这类问题,论文重点研究多视角人群密度估计的相关方法,并针对多视角人群密度估计方法中的图像空间信息提取不足、多尺度目标特征提取不充分、特征空间映射结果不准确等问题进行优化,以提高多视角人群密度估计方法在不