多模态视频片段检索技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jfskldafkld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动通信技术的迅猛发展,人们能够随时随地地创建和分享文字、图像、视频等多媒体数据。作为一种多媒体数据处理技术,视频片段检索在研究和应用中都得到了极大的关注。视频片段检索的目标是针对给定的输入,在未处理视频中预测目标片段的开始和结束时间。根据给定输入的媒体模态不同,可分为如下两类:以视频或图像等视觉媒体作为查询输入的基于内容视频片段检索和以文本、音频等非视频媒体作为查询输入的视频片段检索。本文分别对两种不同方向的视频片段检索技术进行了研究,分析了现有工作中的不足,设计了新的算法以提升视频片段检索的精确度、检索速度等性能,以增加其实用性。本文的主要贡献有如下几个方面:1.在基于内容视频片段检索方面,针对深度哈希方案在长视频中检索速度明显下降的问题,本文设计了基于两级局部敏感哈希的视频片段检索方案。该方案提取第一级颜色粗粒度特征和第二级纹理细粒度特征,在此基础上进行局部敏感哈希映射,并采取特征区域选择、判定重复帧、取头尾片段等操作,在保证精度的情况下,显著地提高了处理速度。同时,该方案具备目标视频重复检测与完整性检测等功能,满足广告监播等实际应用领域的需求。2.在基于文本查询的跨模态视频片段检索方面,针对现有方案忽略实体动作相互关系与上下文语义,导致检索片段准确度较低的问题,本文设计了基于二维时域与关系图特征的跨模态视频片段检索方案2D-SGN。方案设计了以视频切片为单位的可变长度滑动窗口,通过滑动窗口划分不等长的候选视频片段;然后将候选视频片段的联合嵌入特征以二维时间向量的形式排列,计算其相似置信度评分并排序;最后通过关系图特征对评分最高的视频片段进行边界调优,得到准确的片段定位。经过测试,2D-SGN方案的平均检索准确性优于现有方案,特别是在查询文本包含动作顺序和物体位置信息的视频片段检索中效果显著。3.在上述研究的基础上,设计并实现了基于Flask Web框架的视频剪辑系统。系统分别调用上述两种视频片段检索方案,完成根据简单句剪辑出对应场景片段和根据输入视频片段剪切长视频两种不同的功能。系统具备可根据输入的剪裁描述自动定位并完成剪裁功能的优点,可应用于视频快速剪辑等需求场景。
其他文献
2~4μm中红外脉冲激光在气体探测、材料加工和军事等领域具有重要的应用前景,相比于单一波长脉冲激光器,波长可调谐脉冲激光器具有集成度高、灵活性强等优势。孤子自频移(SSFS)效应作为一种实现波长灵活调谐的有效手段,通过光纤内拉曼散射效应使脉冲高频分量作为泵浦光,连续的将能量传递给脉冲低频分量,最终使得拉曼孤子中心波长连续的向长波方向移动,实现中红外波长可调谐拉曼激光器。目前已通过各种非线性光纤实现
转录因子结合位点的识别是理解基因转录调控机理的重要环节,准确的预测算法将有助于人们识别不同转录因子的目标基因,进而研究转录因子结合位点在上游调控区中的位置对转录调控的影响。目前基于已知序列模式的转录因子结合位点预测算法准确性不够,无法提供可信的预测结果。我们开发了一个从相关序列中寻找出现频率高的转录因子的预测算法。在多个调控序列上得到的出现频率高的片段很可能是对于这组序列的转录调控有重要作用的序列
微波光子学架起了光学和微波工程学的桥梁,克服了电子学处理微波信号时的固有限制,是一个具有多重功能的、灵活的光子学平台,有着非常广阔的应用前景。半导体激光器作为一种可靠、高效、易集成、可直接调制的相干光源,在不同的光注入条件下表现出注入锁定、单周期振荡、四波混频等多种非线性行为,这些具有不同性能和特点的非线性行为能够应用于微波光子学中的多个分支,并且拥有无需使用外部微波源实现微波信号的全光产生和全光
随着工业和社会的发展,振动检测技术得到了大力的发展,其中激光测振技术发展迅速。但到目前为止,安装方便、使用效果好的设备技术难度高、难以实现,特别是降低激光传播通道上的风、温度梯度等通道干扰信号非常困难。所以提出了反射式双光束振动检测技术研究,其利用检测区域振动传播过程对物体表面形成的推动变形及不同位置存在相位差的基本原理,双光束进行差分干涉实现振动检测。拥有以下优势:系统适应性强,只要振动附近有会
LED是发光二极管(light-emitting diode)的简称,属于低碳节能的新型光源。相对于传统的白炽灯,LED的耗电量更低,也更环保。因此,LED被广泛用于家用照明、道路照明、景观照明等各种照明工程,成为了照明工程的主流光源。随着LED芯片集成度的增加,其产生的热量也在急剧增大。然而,过高的结温必然会影响LED灯的寿命。因此,LED热源的散热设计非常关键。本文基于大功率LED器件热系统结
合成孔径雷达(Synthetic Aperture Radar,SAR)在目标探测方面具有很大的优势,被广泛地运用在军事领域。军事目标为了不被轻易探测到,很多时候会隐藏在树林区域,由于树木的遮挡,使得雷达探测受到极大的限制。相比于短波段,P波段电磁波波长较长,穿透树木冠层时衰减较小,对叶簇有良好的穿透能力,可以获取林下区域目标的信息。但树干强烈的回波会对目标检测造成干扰。鉴于此,本文从理论分析和实
随着半导体工艺的发展以及芯片集成度的不断提升,芯片之间的数据传输速率的需求越来越高,高速串行数字接口在很多场景下淘汰了并行接口,并且集成到了很多复杂大规模集成电路(如FPGA、DSP和CPU)中,其高度集成化与强大的数据传输能力对测试能力的需求也越来越高,如何提高测试能力来解决测试时间与成本问题成为集成电路行业关注的焦点。市场上主流的分立仪器测试方案,尽管可以对Serdes接口进行测试,但测试效率
随着电子设备对数据高速传输需求的增长,各种高性能串行总线得以不断发展和进步。针对应用极其广泛的PCI-E高速协议总线和接口的测试也被逐渐统一和规范化。PCI-E的测试包括上层协议测试和信号质量测试两大部分。本文从技术实现原理上研究了PCI-E上层协议测试中所用到的测试探头以及PCI-E信号质量测试中所用到的测试夹具,并基于FPGA设计实现了一种能够进行PCI-E信号质量测试的协议信号测试装置,能产
当前社会上交通事故频繁发生,而交通事故的发生很大一部分是由于驾驶员在行车过程中做出不安全的行为而导致的。为了减少交通事故的发生,本文提出了一套用于检测驾驶员行为的方法,可以识别出驾驶员在开车过程中使用手机、抽烟、喝水、挠头等妨碍驾驶安全的行为。本文的主要工作如下:1.对于本课题任务,由于目前网上并没有合适且公开的数据集,因此我们自行采集并建立了数据集。数据集总规模达到8900张,并对驾驶员的位置和
随着现代社会的发展,人们对于驾驶出行自动化的需求日益旺盛,为保证出行的安全性,目标检测技术越来越多地应用到车载系统中,由于车载系统无法像实验环境提供充足的算力资源和内存空间,为此,本文提出了一种基于多级特征跳跃连接的轻量级目标检测网络,在保证了网络检测效果的同时,使得参数量大幅降低。基准模型的逐点特征提取法仅仅将中心点周围相邻点的局部特征作为输入,然而忽略了中心点本身的特征描述信息,这导致特征编码