基于循环卷积神经网络的视频动作识别

来源 :天津大学 | 被引量 : 0次 | 上传用户:linuxlovermm5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于深度学习在语音、图像上的成功应用,通过结合卷积神经网络与循环神经网络结构的循环卷积神经网络也随之被提出,以达到帮助计算机处理和理解视频这种具备时空特征的数据。然而由于缺乏标注数据和过多的参数,循环卷积神经网络在视频动作识别等任务上却存在过拟合的风险。为了解决这些问题,本文提出共享的循环卷积神经网络,并基于此提出时序VLAD模型对视频的时空特性进行建模,从而得到更具区分力视频特征表达。具体来说,针对循环卷积神经网络,通过共享“输入到隐层”的参数,减少参数的数量,降低过拟合的风险。而时序VLAD模型通过共享的循环卷积网络学习连续视频帧上量化权值,以VLAD方法进行量化,从而对视频的时空信息进行建模并给出视频的特征表达。在视频动作识别的基准数据集HMDB51上的实验结果证明了本文所提出共享循环卷积神经网络和时序VLAD的有效性。由于时序VLD是一个更一般的视频特征提取模型,我们更进一步在视频自动描述生成的基准数据集上证明本文所提出方法的有效性以及良好的可扩展性。
其他文献
构造活动是控制沉积盆地形成的主要因素。准确厘定构造活动的时间对于研究沉积盆地的形成、演化及油气的勘探开发是非常关键的。利用不整合、时间明确的地层厚度、沉积相、古
叠词结构是英美文学中的一种重要的修辞手法 ,其形式多样、语义灵活 ,汉译时较难把握。本文从语音学和修辞学的角度 ,将文学叠词结构分成拟声、头韵、尾韵、讹音、首语、结句
<正>有关一元二次不等式问题是高中数学的重要内容,渗透在高中数学的各个部分.会解一元二次不等式,掌握"三个二次"的关系及其转化是最基本的要求,灵活运用一元二次不等式知识
世界各国每年的肉类掺假事件频发。多种基于核酸、蛋白质和脂质的技术被开发出来并实际应用于检测肉类真伪。近二十年来,随着分子生物学检测技术的迅猛发展,肉制品鉴别有了真
20世纪初叶 ,我国马克思主义的先驱李大钊曾用“我的马克思主义观”这个题目 ,较为系统地向国人介绍了马克思主义的基本原理 ,为开创和推动马克思主义在中国的传播作出了巨大
计算机音乐日新月异的发展,所呈现的一种态势就是传统乐器的应用受到电子乐器的强烈7中击。有的学者还提出了"无乐器法则",即:摒弃传统乐器的分类和应用中对音色的诸多界定,以普
交流调速系统以其优越的性能,在生产实践中迅速推广使用,而检测到的电机参数是否精确,对于系统性能有着至关重要的影响。经过很多人的研究,一般认为:离线检测实现起来容易,但是检测
目前企业中的各个系统往往由单一业务为出发点,内部缺乏有效的互连互通,形成“信息孤岛”,造成企业难于统一管理各个系统。BOSS系统的重要功能是实现统一管理,并为企业决策提
跨文明比较文学研究与影响研究、平行研究在可比性内容问题上的根本区别 ,即在于对文学的文化异质性与互补性研究的强调。国际上曾有人担心强调异质性研究会导致民族化 ,国内
进行高标准基本农田建设需确定建设区域的高标准基本农田的标准值,厘定基本农田现状与建设标准之间的差距,并使资金投资与现状相匹配。该研究根据高标准基本农田建设标准、实