基于深度学习的动态视频场景识别研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:a9s5c112j6b
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景识别是对无结构化数据进行智能处理,从而使其变成可供计算机自动识别的分类问题,是一种综合运用计算机视觉、行为识别和人工智能的重要技术。在大数据和人工智能的时代背景下,场景分类技术广泛应用于遥感图像处理、视频图像处理、智慧城市和智能家居等领域之中。其中,视频场景分类是计算机视觉领域一个热点的研究问题,其目标是综合运用图像处理、机器学习、模式匹配和人工智能等技术实现场景的语义理解,在视频分析、视频剪辑等领域具有极其广泛的应用需求和重要的研究价值。因此长期以来受到国内外学者的广泛关注,尤其是近年来伴随着深度学习技术的迅猛发展,将视频场景分类技术推动到一个前所未有的高度。视频场景的分类主要分为静态场景分类和动态场景分类。其中,静态场景分类技术,例如判定视频场景属于室内场景还是室外场景,属于跑步运动场景还是游泳运动场景相对简单而成熟。相对于静态场景分类,动态场景分类具有更细粒度、语义信息更加丰富等优势,但同时面临着目标检测准确率低、对象时空关联关系模糊等难点问题,因此具有更高的理论研究和应用价值。本文以足球比赛视频中的射门场景为研究对象,以基于深度学习方法构建足球比赛视频射门场景自动提取技术为主要研究内容,主要的研究工作和研究成果如下:(1)针对论文研究对象缺少公共数据集问题,借鉴标准公共数据集构建方法,利用足球比赛实况转播录像视频资料,提出了包括数据采集、数据标注和数据预处理方法在内的完整的数据集构建方法,并完成了论文研究所需数据集的构建。(2)针对实际应用中YOLOv3对于视频场景中的小目标存在特征提取效果不佳问题,通过采取引入结合Mosaic和SAT自对抗训练的数据增强技术以提升模型输入数据质量,在YOLOv3的特征提取网络中加入上采样网络以提升其对小目标的检测准确率,同时引入CSP网络用以减少网络参数等综合措施,提出了一种基于YOLOv3改进的视频场景小目标检测算法,并通过实验验证,证明了其具有较高的小目标识别准确性和鲁棒性。(3)针对循环神经网络RNN使用one-hot向量作为模型输入存在无法表示要素目标的空间信息问题,提出了一种基于Space-vec矩阵的视频帧特征化表示方法,以此代替one-hot向量作为RNN模型的输入变量。在此基础上,通过采取在RNN正向传播过程中引入下一时刻的隐藏层激活值以保证输出结果可以受到未来信息的影响等改进策略,提出了一种基于RNN模型改进的关键帧提取算法(D-RNN)。实验结果表明,D-RNN可用于实现对包含不同预设行为的视频帧进行自动分类,据此实现对包含预设目标行为的视频场景进行自动提取,在识别精度上较原模型有较大提升。(4)基于论文提出的改进算法和模型,提出了足球比赛录像射门场景自动提取原型系统的设计方案并进行了初步实现,借助原型系统并通过实例分析,进一步证明了论文研究成果的有效性。
其他文献
生物医学领域的研究发展日益迅速,领域文献的数量呈指数增长,如何自动有效地从这些文献中提取有价值的信息变得越来越紧迫。生物医学文本关系抽取主要是对标记的医学实体之间潜在语义关系的展现,例如药物与疾病之间治疗关系、基因之间的突变关系、化学物质和疾病之间诱导关系等。目前,关系抽取任务大多采用深度学习的方法,该方法的主要优点是不仅减少了大量的人工参与而且还能自动捕获特征。然而现有的模型仍存在以下几个问题。
学位
伴随着网络和移动智能终端的不断发展更新,用户信息呈现出一种爆炸性的增长,通过对用户信息进行数据挖掘和数据分析,可以更好的为用户提供服务,但这些数据中涉及大量敏感的个人信息,所以社交网络图在发布之前需要进行严格的隐私保护。差分隐私保护模型不依赖于攻击者所具有的相关背景知识且有严格的数学理论基础,因此在社交网络图的发布中得到了广泛的应用。目前社交网络图的发布算法大多应用了聚类的方法,但由于聚类时没有考
学位
随着用户需求增长,软件开发愈加复杂,设计模式被广泛应用于解决复杂的软件逻辑与结构问题。但软件开发和维护过程中,设计模式作为软件开发中优秀经验的总结,其信息却很难被开发人员直观地提取应用,因此从源码中识别出设计模式的应用实例的方法颇具研究意义。设计模式识别能有效帮助维护人员理解、维护及重构软件程序,也是能实现设计模式可复用性的重要前提。通过总结文献发现,设计模式识别仍有问题有待研究:(1)识别设计模
学位
随着国民经济和对外贸易的快速发展,国际、国内航运事业需求旺盛,中国的航运业已经成为全球市场最具活力、增长力的市场之一。随着航运事业的发展,来往船舶数逐渐增多,航道拥堵问题日益严重,海上交通安全和船舶航行时间长等问题也随之出现。虽然VTS在很多港口已经投入使用并积累了海量的雷达数据,但目前对这些数据的使用却不是很充分,大量的历史数据被遗弃在数据库中,还消耗着存储资源。目前各个港口的VTS基站都只是针
学位
优化问题是一个热门的研究领域。很多现实中复杂的工程和科学问题都可以被抽象为大规模全局优化问题。大规模全局优化问题具有决策变量维度高(一般超过100维)、搜索空间过于广泛以及大量的局部最优性等特点,因此从大量的解决方案中寻找最佳解决方案是研究的重点。进化算法是目前公认的求解大规模全局优化问题的卓有成效的方法。粒子群算法作为一种基于种群协作的全局寻优进化算法,以其实现简单、参数少以及收敛性能好等优点被
学位
现阶段信息数据每天都在以指数级增长,而在海量的信息数据中,文本数据是最为常见的一种。在实际的生活中大部分文本数据集分布都是不平衡的,而原始的文本分类算法大都在平衡的数据集上进行训练,当在实际的数据不平衡的情况下进行应用时,会对模型的分类效果产生较大影响,因此,如何高效的对不平衡文本数据进行分类是一个具有现实意义且急需解决的问题。本文针对不平衡文本数据集(二分类)存在的问题,从类别损失、特征提取两个
学位
近年来我国电子商务发展突飞猛进,网购人数呈指数性增长。随之而来,面对电商平台海量商品信息给网购用户带来的“信息过载”问题,基于用户选择偏好预测的商品推荐系统所蕴含的重要商业价值日益引起社会各界的广泛关注,并逐渐成为这一领域的研究热点。从实践应用来看,亚马逊早在2003年便已投入推荐系统的设计与研发,并在其网站上率先实现了基于协同过滤的商品推荐系统,同时带动了电商平台内推荐系统的广泛应用。从技术角度
学位
日本普惠保险的发展经历了从以保险商品为中心、以区域和行业普及为中心到以业态形成为中心的演变。20世纪初期,日本以简易生命保险产品快速普及普惠保险,配套设置以国家信用为担保的简易生命保险特别规则。20世纪中期,日本以共济业为中心,形成了普惠保险的区域和行业发展模式,共济规制理念和做法经历了以强调个性到注重共性的变迁。1995年放松保险业规制后,日本在立法层面创设小额短期保险业,经由特别立法扶持行业发
期刊
图像作为信息传输的重要载体,保证图像在互联网中安全的传输是一个巨大的挑战。利用混沌特性设计新密码系统,以保证信息的安全存储和传输,是当前混沌密码学面临的迫切任务。本文结合混沌动力系统与布尔网络理论,对混沌图像加密算法设计与模型构建开展了以下研究。(1)结合矩阵半张量积(Semi-tensor Product,STP)理论设计了一种高效的混沌图像加密算法。此方法打破了传统矩阵运算的束缚,使反应矩阵具
学位
财务领域的知识体系复杂庞大,相关政策更新迭代速度频繁,人们日常办理财务业务可能会遇到各种各样的问题,因此需要准确高效的获取财务领域的知识。传统的方式是拨打咨询热线,但当咨询量大、线路繁忙时,用户不能及时的获取知识。随着互联网的快速发展,财务知识的获取大多来源于网络,但财务领域知识具有专业性高、私密性强等特点。用户通过网上搜索的方式难以真正的获取到有效的信息。为解决以上提出的问题,本文结合深度学习、
学位