基于卷积神经网络的视频语义概念分析

来源 :江苏大学 | 被引量 : 16次 | 上传用户:only16666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多媒体技术的日新月异,视频语义概念检测成了大家日益关注的研究热点。而在多媒体数据中,视频相比较于其他数据所包含的信息更加的复杂,如何很好的得到每个视频所包含的语义概念,并将其作为视频合适的标签也就成为了视频检索领域中的重点和难点。本文首先介绍传统的视频语义分析方法,其次详细介绍深度学习中几种模型,并讨论以往视频语义分析方法存在的问题;再次主要介绍本文所提出的视频语义概念分析方法,并验证方法的有效性,且简单介绍原型系统的构建;最后讨论视频语义概念分析领域将来的研究方向。本文的主要内容如下:(1)提出基于拓扑模型预训练卷积神经网络的视频语义概念分析方法卷积神经网络可以自适应提取输入数据中的分布式表征,通过构建不同的操作层,将原始数据进行低层级特征提取,并进行高层的变换从而得到更复杂且更具鲁棒性的特征。针对该模型需要较多的有标签数据,且为了进一步提升模型对视频图像帧中目标的旋转、缩放、平移等不变性,首先将拓扑约束引入到稀疏线性解码器模型中提出一种拓扑线性解码器模型,将该模型作为卷积神经网络的预训练模型,然后用较少的有标签关键帧对该模型进行微调,从而得到针对视频数据集的卷积神经网络特征提取模型,最后将提取的特征输送到支持向量机中做进一步的结果预测。实验结果表明,基于卷积神经网络的特征提取方法比传统的特征提取方法效果要好,而且在基于拓扑模型预训练的基础上效果有进一步的提升。(2)提出基于自适应阈值混合池化卷积神经网络的视频语义概念分析方法传统的卷积神经网络模型的池化层一般为最大池化或者平均池化,而最大池化因每次都是选取最大值,故而容易过拟合,而平均池化虽然考虑了整个池化区域的所有激活值,却极容易因池化区域中存在过小的激活值而使得池化的结果普遍偏小从而容易造成欠拟合。对此,本文提出自适应阈值混合池化的方法来代替传统的卷积神经网络池化层的池化方法。首先计算池化区域中每个激活值对应的贡献概率,并基于此作为每个激活值的权重求出该池化区域的激活值加权和,用其作为该池化区域的阈值,将大于该阈值的激活值予以保留,并对保留的激活值做平均操作从而得到最后的池化结果。实验结果表明,该方法相比传统的最大池化和平均池化方法能够更进一步的提高视频语义分类的准确率。(3)设计并实现基于卷积神经网络模型的视频语义分析原型系统基于程序模块化的设计理念,采用Python、CUDA以及Theano和Numpy库作为系统的核心算法开发,PyQt作为原型系统界面的开发,设计并实现数据预处理、模型构建与训练、语义检测三大模块,验证了本文所提的视频语义概念检测方法的可用性。
其他文献
本文提出并研究了一类新的混沌系统的动力学行为、混沌控制及混沌同步问题。 首先,提出了一类新的混沌系统(包括两个系统),该类系统是类Lorenz系统,但是它们与Lorenz混沌系统,Ch
在机械手执行任务的过程中,控制机械手定位到目标位置是一个非常关键的问题,要想对机械手进行有效的控制,首先要对它进行精确的定位。本文采用了距离和图像复合测量的方法对
交换机缓存管理与分配算法的好坏将直接影响系统的性能。本课题针对缓存管理策略中分组丢失重传、服务公平性以及分组丢失率等缓存性能问题,试图建立排队模型对其加以分析,以使
在工业生产领域中,特别是机器人、数控机床,永磁同步伺服系统具有很重要的地位。随着智能制造装备的发展,对永磁同步伺服系统性能的要求也越来越高。永磁同步伺服系统一般采用位置环、速度环、电流环的三环级联控制结构,在这种结构下电流环的响应速度直接决定了伺服系统的响应速度,提高电流环的带宽是提高伺服系统动态性能的关键。无差拍电流控制相当于高增益的P控制从原理上增加了电流环的带宽,但它是基于精准的电机数学模型
本文研究了基于无线射频识别技术(Radio Frequency Identification,RFID)的单件生产实验系统中的机械手运动控制,及该系统的运行过程中的死锁避免方法。   在这一系统中,实现了
分布式可再生能源发电的爆发式增长正改变着未来电网的形态。一方面,居民屋顶光伏面板、工业园区厂用光伏发电、海岛以及偏远地区小型光伏电站数量不断增长;另一方面,变频驱动的工业电机及家用电器、LED照明、电动汽车直流充电桩、个人手提电脑、手机等直流用电设备不断普及,使交直流混合微电网成为电力系统消纳分布式新能源与接入直流负荷的有效组织形式及过渡形态。因此成为近年来学术界重要的研究方向之一。本文聚焦于高密
排队论又名随机服务系统,它通过研究各种服务系统在排队等待中的概率特性,来解决系统的最优设计和最优控制。本文在已有文献的基础上采用排队论的相关知识建立了几类随机环境下
图像分割是图像处理中的基础,它为高级图像分析提供了有利的条件,使得智能、快速、准确的图像分析成为可能。图像分割有非常广泛的应用领域,在智能交通、军事研究、生物医学
翻翻民国年间的老报纸、老期刊,我们能感受到当年广告大战的弥漫硝烟。在那林林总总、光怪陆离的商业广告中,一幅幅名流手迹如同绿洲甘泉,沁人心肺,令人神往。有作家、学者、名医、将军、政治家,甚至佛教法师,他们的题辞、书函既是广告,更是难得的书法艺术品。太虚法师做调味品广告  中国根泰和合粉厂是上世纪20年代上海一家著名华商企业。该厂创设于1921年。实业家程霖生出资20万元,建起根泰和合粉厂。初次投产,
上文谈了18个你必碰到的场合之十:参加学术会议,本文谈谈其之十一:科研合作。多数博士生对于完成博士学位论文,还需要有"科研合作"不甚清晰,相反地,更为强烈的烙印是诸如"别人不可