基于分水岭算法与3D CNN的视频动作定位研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:deskleg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动作识别与定位是视频行为理解的基础,对人类的便捷生活有着巨大的应用价值,是计算机视觉的重要研究方向。相比于其他计算机视觉任务而言,视频动作的定位与识别需要同时对时域和空域信息进行建模,使用一般的二维卷积算法处理动作定位问题比较困难。许多传统的视频动作定位和识别研究依赖于二维卷积神经网络和手工特征,手工特征的实现比较复杂。本文旨在通过对视频动作信号进行研究,提出更高效更精准的动作定位与识别方案。针对视频动作定位与识别任务,提出了一种两段式动作区域定位算法。本文所做的工作可以总结如下:首先将应用于二维图像分割领域的分水岭算法加以改进,创新性地应用于一维动作可能性信号,通过在时序区域的聚类得到长度多样化的候选区域,实现第一段定位网络的粗定位。并利用能够融合时域和空域特征的双流网络作为二元动作性分类器,产生用于分水岭聚类的时序信号,提升定位的准确度。提出了候选区域准确性判别器,利用滑窗候选区域对分水岭算法的候选区域进行补充,克服了分水岭聚类算法会遗漏一些正确的候选区域的缺点,提升了分水岭算法的准确率。进而提出了主-次优先级排序算法,将初步提出的分水岭算法优化为改进的主-次分水岭候选区域定位算法(Prior-Minor Watershed Action Proposal,PMWAP),平衡了分水岭聚类算法和滑窗算法的优点,使得动作候选区域在极端情况下的定位也更加准确。进而提出时序上下文单元模块,并在此基础上引入时序金字塔池化算法,对内部候选区域和扩展候选区域实施结构化建模,得到一个扩展增强的全局区域特征。上下文信息模块能够对动作片段的起始阶段特征和终止阶段特征进行扩展,保证了动作片段的完整性。时序金字塔池化模块能够对动作片段的内部候选区域和扩展候选区域进行针对性地建模,精细化地处理视频特征,进一步提升动作定位精度。第二段动作定位算法(Temporal Context Regression,TCR),采用多任务学习机制,同时实现了动作定位和动作识别。其中动作识别实现了动作/背景候选区域的分类,去掉了大量冗余的背景区域,而动作定位采用时序坐标回归算法得到更加精确的动作边界。TCR时序上下文回归算法以单元级的C3D特征为基本单位进行训练,区别于单帧训练方式,本文算法在提升精度的同时大大提升了训练效率。最后提出了一个融合了时序重叠率的新型动作分类器,利用联合损失函数,能够克服传统动作分类器对定位不准确的候选区域打分较高,导致定位不准确的问题,进一步提升关键动作识别在特殊情况下的准确率。经过实验验证,在两大基准数据集Thumos2014和ActivityNet进行了测试,与已有的先进算法相比,本文提出的两段式视频时序动作选举算法PMWAP+TCR达到了最优的平均召回率,可以有效提高动作定位的精度。所提出的网络结构和实验方法对视频关键动作定位和识别问题都有借鉴意义。
其他文献
20世纪80年代以来,“教师作为研究者”的观念已广为流传。教师做研究不仅有助于提高教学质量,促进学生发展,也能推进教学观念、教学方法、课程内容、教育体制的改革,促进素质教育发展。它作为教师专业化发展的同义语已经成为一个蓬勃的研究领域和焦点。对于职前英语教师们来说,他们对研究的态度决定着他们以后参加教育研究的程度和范围。因此职前英语教师理应对研究秉持积极态度,树立起自己作为教师和研究者双重身份的积极
学位
报纸
导弹制导控制系统一体化设计由于能充分考虑制导系统和控制系统间的耦合信息所以比传统的分离式设计具有更好的性能,所以为了提高导弹命中精度研究制导控制系统一体化设计具有非常重要的应用价值。一体化的导弹制导控制系统是一个含未知非匹配干扰和不确定项的高阶非线性系统,其设计难点是如何解决非匹配干扰的影响并使系统稳定。同时,当系统状态不可测量时,未知的状态与未知的非匹配干扰会构成观测死循环问题。针对以上问题,本
学位
随着科学技术的飞速发展,现代工业日趋规模化和智能化,随着工业数字化、智能化的进步,生产过程参数检测及状态感知数据的体量也越来越大。毫无疑问,这些海量的工业生产数据为企业操作者和研究人员提供了非常丰富的资料,为分析工业生产的状态提供了可能。与此同时,系统中错综复杂的参数关系也对数据分析技术提出了挑战,没有快速有效的分析方法,就难以从繁杂的数据中得到有用的信息。机器学习是近年来十分流行的一种数据挖掘和
学位
随着全球化的发展,国与国之间的政治、经济和文化交流日益频繁。在交流日益密切的过程中,人们不仅致力于将本国文化传统传播出去,同时也激起了对外来历史文化的浓厚兴趣。基于这一背景,本文译者选取了一部英国广播电视台的纪录片《新加坡的秘密》进行模拟交替传译实践,并在此基础上撰写口译实践报告。所选材料时长约45分钟,同时纪录片与我们分享了新加坡第一批移民,向我们展示了新加坡与众不同的文化以及鲜为人知的历史。报
学位
自传类文学作品因其真实性和自然亲切的写作语言,拉近了作者与读者的距离,一直深受读者喜爱。国外名人自传经过翻译后,将个体的声音传到不同的国家,在叙述作者人生经历的同时展现了一个国家一个时代的文化。本篇翻译实践报告选取了英国乐坛传奇歌手埃尔顿·约翰的自传《我:埃尔顿·约翰官方自传》一书中部分内容进行翻译。该书涉及上个世纪欧洲流行音乐文化的发展趋势,要求译者对英国音乐文化有深入了解,且能灵活运用各种翻译
学位
我国农业发展趋势由传统农业向精准农业过渡,变量喷雾技术是精准农业的重要组成部分,是精准农业中与食品安全和环境污染最密切相关的一个环节,是实现农业高效、优质、低耗、安全的有效途径。变量喷雾混药方式包括预先混药和在线混药两大类。目前,国内变量喷雾混药方式主要为预混式,在药液浓度不变的情况下通过改变施药量实现喷雾量变化,其不能根据不同地块病虫害程度不同改变药液浓度,另外作业时操作人员需与农药接触,对操作
学位
本文主要研究时滞系统PID控制器的设计以及PIDCDTDS工具箱的开发。由于PID控制在现代工业中的广泛使用以及时滞现象的普遍存在,因此时滞系统的PID控制器设计是一个十分经典并且重要的问题。本文是在频域扫描框架的基础上进行研究的,但是这种方法需要通过绘制频域扫描曲线后进行人为分析,并获得参数τ的详细稳定区间。而时滞PID控制系统中控制器的增益(kP,kI,kD)以及时滞参数τ都是自由参数,这种涉
学位
随着工业革命4.0的快速推进,全球工业发展掀开了新的篇章,各国开始了新的博弈,在这场优胜劣汰的角逐中,所有参与者都在一个起点,这是一场在互联网世界中,智能化与传统的博弈,是一场机械与人的融合,而我国恰逢工业革命4.0快速推进期,因此国家提出“中国制造2025”发展战略,同时国家相关部门联合发文推动智能建造与建筑工业化协同发展。本文提出双块式轨枕智能制造装备在智能工厂中的应用,通过机械化换人、自动化
期刊
有效地操作、高效、优质、节能降耗、低成本的运行对钢铁工业是至关重要的。国内外经验表明,采用新工艺、新技术、新设备、自动化是达到此要求的有效方法。连续加料电弧炉采用废钢预热、留钢操作、全程泡沫渣埋弧、高强度喷碳供氧等新工艺技术,为实现冶炼过程的自动化控制提供了基础。本文以吴航不锈钢有限公司1#电弧炉为对象,进行了连续加料电弧炉自动炼钢技术的应用研究,主要内容如下:(1)通过对连续加料电弧炉设备和冶炼
学位