基于深度学习的视频运动目标检测与搜索

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:meirumen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检测和搜索视频中的目标是计算机视觉领域的重要任务之一,其主要难点在于如何运用深度学习等算法来分析出视频中目标的位置以及如何根据查询条件搜索到视频中准确的目标。近年来传统的深度学习算法对于单张静态图片的识别以及文本描述生成取得了较大的进展,但仍然不能满足视频中目标的检索要求。本学位论文以检测与搜索出视频中的目标物体为研究目标,首先提出一种基于边界概率卷积神经网络模型的目标定位检测算法来识别与定位视频中的目标,再通过一种基于时空双流特征融合的3D卷积神经网络完成视频中人物的动作检测,最后通过一种基于循环神经网络(GRU)模型的自然语言目标搜索算法来完成视频中的目标搜索。此外,本文在图像的目标检测数据集PASCAL VOC上完成目标的定位检测实验,在人物动作数据集UCF-101和HMDB51上完成视频人物动作检测实验,在目标标注数据集ReferIt上完成视频目标的自然语言搜索实验。实验结果证明,本文提出的基于深度学习的目标检测与搜索算法在一定的程度上改进了已有的方法。本文的工作创新主要体现在以下三个方面:(1)利用一种基于目标候选框边界概率的卷积神经网络模型,计算出目标候选边界框的四条边在一定搜索区域上的概率,获得更加接近人工标注边框的候选,通过迭代的方式与目标识别模型进行融合。(2)将预先训练好的空间流与时间流动作检测网络在深度卷积层进行融合,利用融合后的时空双流动作检测模型提取中层时空特征提取,之后利用3D卷积神经网络模型完成视频人物动作检测。(3)利用卷积神经网络并行的抽取局部目标区域和全局的特征,通过两层的门循环神经网络融合这两方面的特征以及自然语言搜索语句的特征来完成自然语言目标搜索。
其他文献
2006年11月13日,教育部宣布国家“高职211”工程(困家要在“21世纪建设100所示范性高等职业院校”)正式启动。经过教育部、财政部联合组织的专家组评审,于2006年12月5日在北京公
伯克霍尔德菌(Burkholderia sp.)ZYB002脂肪酶A欠佳的温度耐受性限制其使用效果和应用范围。提高酶蛋白的稳定性,对延长酶蛋白的货架半衰期,提高酶反应速率等具有重要的意义
【正】 書記挂帅小小工厂遍地开花 1988年的春天,是一个不平凡的春天。鄂城农村掀超一个波澜壮闊的跃进浪潮。全县人民提出了“三年完成十年規划”的口号。农村里日以继夜的
【正】 武汉哲学社会科学界准备在明年分四批(元旦、五一、七一、十一)发射卫星,迎接国庆十周年。各学会拟定的研究項目已有二百多个。研究內容,主要是总結我国十年来的偉大
【正】 一在大搞技术改革和工具改革的今天,农业社的經营管理工作如何跟得上去?湖北鄂城杜山乡旭光一社在这方面取得了些初步經驗。旭光农业社是县委重点社,主要作物是棉花、
期刊
光纤衰减是光纤传输性能测试的基本参量。本文通过对光纤衰减测试原理的分析,利用数字锁相技术,通过以计算机为核心,高精度的AD转换、配以DSP技术的数字信号处理,实现了长距离光
本文主要论述了科技档案鉴定工作的重要性和迫切性,就我院科技档案的发展现状对科技档案的鉴定工作做了系统的分析,并对现实存在的一些问题提出了一些意见和建议供档案界的同仁
来自25个国家的150多名代表相聚斯里兰卡首都科伦坡,讨论与下一代网络NGN有关的标准化及管制问题。本次由国际电信联盟ITU与联邦电信组织CT0联合组织、斯里兰卡电信管制委员会
2008年度河南省高等学校教学团队评选结果于2008年7月9日揭晓,根据河南省教育厅教高[2008]461号文件精神,经过学校推荐、专家评审、结果公示3个阶段,最终省教育厅确定了全省高校中33个团队为2008年度省级教学团队(郑州大学3个、河南大学2个,其余28所高校各1个)。
近年来,随着社会的发展与进步,人们的思想观念发生了极大转变,这点在石油石化企业内表现尤为明显。在新思潮的影响、市场经济的效益优先原则和利益多元化趋势的冲击下,广大职工的