基于上下文的视频理解关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gym510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的快速发展和智能设备的大规模普及,现代社会中产生了大量的视频数据。考虑到视频帧与帧之间的时序相关性,上下文在视频理解研究中必然发挥着重要作用。现实生活中的视频大多持续时间很长,而且很可能包含多种多样的行为片段以及用户不感兴趣的背景内容。为了理解视频内容,研究者需要首先识别出包含行为的语义片段,然后分析片段内容。因此本文首先研究了时序行为检测技术,用来识别视频中所有行为片段的时间边界(即开始和结束点)以及相应类别。时序行为检测任务通常可以分为两个阶段,即推荐框生成和行为分类,其中推荐框生成任务通过预先生成可能包含行为的推荐框,便于后续行为分类。在检测到行为片段之后,本文研究了视频描述生成技术,针对某段视频内容生成描述语句。这些技术都有着重要的社会和现实意义。时序行为检测技术可以识别监控视频中的异常行为,而视频描述生成技术可以将视觉内容转换为语言信息。由于现有视频理解技术对于上下文信息的挖掘不够深入,本文专注于研究如何更有效地利用上下文来加深视频内容的理解。本文针对时序行为检测和视频描述生成技术展开了讨论,总结如下:为了生成时序行为推荐框,本文研究了不同序列学习网络用于视频序列中的上下文建模,包括卷积网络和自注意力网络。考虑到之前的算法对于预定义锚框时长的限制,本文提出了一种基于卷积网络的多尺度时序行为推荐框生成算法。首先,该算法利用扩张卷积对视频特征序列的上下文建模,通过并行化实现了网络加速。其次,该算法将网络感受野范围划分为多个时间尺度,在每个尺度下引入了时长回归来细化推荐框的边界。基于这种多尺度时长回归机制,该算法放宽了锚框时长限制,并生成了具有任意时长的行为推荐框。为了进一步放宽锚框以及网络建模范围的限制,本文提出了一种基于双层自注意力网络的时序行为推荐框生成算法。该算法包含两个模块,分别针对帧级关系和推荐框级关系建模,完成推荐框生成任务。在帧级关系模块,该算法将注意力头划分为若干组,并编码不同时间位置的上下文信息,有效捕获了视频序列的时间边界信息。在推荐框级关系模块,该算法将推荐框之间的相对位置信息融入推理过程,从而增强了这些推荐框的特征表示。在生成时序行为推荐框之后,本文提出了一种基于视频上下文细化推荐框的时序行为检测算法。首先,为了细化每个推荐框,该算法用两个相邻的等长片段来扩增该框,利用过去和未来片段的上下文信息来辅助检测扩增区域内部的目标片段。其次,该算法不仅回归了目标片段的时间位置,而且回归了它们与真实标注的交并比。基于这种回归机制,该算法为目标片段获得了更精确的位置及行为概率估计,从而改善了整体检测性能。考虑到之前的算法对于视频时序结构的刻画不够细致,本文提出了一种基于时空上下文和通道注意力机制刻画时序结构的视频描述生成算法。首先,通过改变循环卷积网络中卷积核的尺寸,该算法将不同时空范围的上下文融入视频特征表示。其次,该算法在帧注意力基础上融合通道注意力机制,突出了通道级别特征在生成描述单词时的内部参与作用。总之,该算法更细致地刻画了视频时序结构,从而改善了描述生成的性能。本文针对上述算法进行了充分的实验以及分析。实验结果表明,本文所提出的算法不但有效提取了视频内容中的潜在信息,而且在性能评估中的表现优于同类算法。
其他文献
目的探讨2%硝酸银外涂联合10%氯化钠湿热敷治疗多西他赛外渗所致静脉炎的临床疗效。方法将该院2012年3月—2015年11月收治的60例多西他赛化疗致静脉炎的患者随机分成两组,治
背景:近年来,随着现代医学的发展及对肿瘤的研究逐渐深入,肿瘤免疫疗法受到广泛关注。特别是以程序性死亡受体-1(programmed cell death protein 1,PD-1)/程序性死亡配体1(pr
居民住房水平的发展与一国社会经济水平的发展情况紧密相连,尤其是城市居民中的中低收入阶层,如何保证他们合理的住房水平,关系到社会的稳定与和谐社会的构建。目前,我国对城
文章通过对特色小镇在我国产生演化过程的梳理,界定了特色小镇的内涵和基本特征,并运用产业集聚理论、工业区位理论、增长极理论、新新经济地理学理论,对特色小镇发展思路作
正面积极的教学态度包括热爱教学工作并且自信乐观,认真充分备课并且与时俱进,尊重理解学生并且交流顺畅,分析总结成绩进而优化教学内容与方法。从学生的视角观察和体会课堂
公安长江公铁两用大桥是蒙西—华中铁路和沙市—公安高速公路跨越长江的共用桥梁。针对上下层桥面宽度相差悬殊的特点,进行两种主梁方案比选,确定采用直主桁加斜撑杆的新型钢
胸部CT在尘肺诊断中的应用武汉中国一冶医院放射科(430081)张赞民,陈润德武汉中国一冶卫生防疫站陶厚福本文对19例经尘肺诊断组诊断的各期尘肺进行了CT扫描,将其结果与患者近期高千伏胸片比较
我国是世界茶叶生产大国。近年来,随着茶叶产业的不断发展壮大,因茶叶粉尘而诱发的职业危害在农村正呈快速上升趋势。为此,有关专家告诫:茶叶粉尘。危害多多! 小小茶尘危害多
反意疑问句常用来提出情况或看法,询问对方同意与否。这种问句都由两部分组成,前一部分用陈述句的形式,后一部分是一个附着在前一部分上的简短问句。
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关