面向智能前置场景的视频线索归纳关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：chichuren

【摘要】

：

随着人类社会的不断发展，各类视频数据呈现爆发式增长。视频数据在采集上表现出超高清化的趋势，在处理上越来越偏重智能化和多业务融合，这给传统的前端采集原始数据结合云端融合

【作者】

：

雷杰

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2018年期

【关键词】

：

目标抽取视频浓缩模型压缩智能前置场景

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类社会的不断发展，各类视频数据呈现爆发式增长。视频数据在采集上表现出超高清化的趋势，在处理上越来越偏重智能化和多业务融合，这给传统的前端采集原始数据结合云端融合分析的流程带来了巨大的存储、传输和处理的挑战。在这样的背景下，“智能前置”的理念应运而生，旨在通过对前端设备的智能化程度进行升级，完成关键数据的提取和归纳，从而提高数据的表达能力和结构化程度，对于视频数据处理具有重要的实际意义。　　对于智能前置场景，目标抽取和视频浓缩是关键的视频数据分析技术，而模型压缩是在受限场景进行模型部署的重要手段。本文从目标抽取、视频浓缩和模型压缩三个关键技术出发，针对存在的局限性问题，研究并设计了新的模型和算法，为实现高效、稳定、精简的视频线索归纳框架提供了技术支撑。　　目标抽取是视频线索归纳的基础，其作用在于对不同目标进行区分并筛选出感兴趣的对象，从而有效减少前端场景需要进一步传输给后端处理的数据。本文针对不同目标分类难度的差异，提出了结合决策树和深度网络多层抽象表达的方案。该模型利用不同层之间的特征来构造决策树，在树深较浅的地方选择偏向语义表达的深层特征进行分裂，而在树深较深的地方选用偏向细节的浅层特征进行分裂，从而对不同难度的目标分类使用不同的特征组合来对待。此外，不同于传统的基于局部像素差异的显著性度量，本文还提出了多个比对卷积神经网络级联的方法，由全局到局部地从语义角度比较目标的显著性。　　视频浓缩通过提取关键帧，为视频线索归纳提供了一种精简的表达形式，可以进一步提升前端场景中归纳的数据价值。对于长视频，视频浓缩包括视频片段分割和关键帧提取两个过程。该问题的主要困难在于中间帧（转折帧）在分割时带来的歧义性以及关键帧提取的效果缺乏客观评价。本文从视频中动作语义的角度进行视频浓缩，针对视频片段分割中歧义性的问题，提出了结合时间约束性的多实例学习训练动作分类器的方案，进而根据动作解析的结果将长视频分割为片段。针对关键帧缺乏客观真实值的问题，本文设计了联合视频分类任务来引导关键帧提取过程的思路，通过客观的视频分类效果来迭代更新关键帧的提取结果，从而更好地对视频片段进行表达。　　在智能前置场景中，将目标抽取、视频浓缩及相关算法模型直接部署到资源受限的前端设备上是困难的，特别是在目前主流的模型常常采用大量耗费算力的深度模型框架的情况下。当前的深度模型压缩策略存在一些局限性，比如受限于原始模型结构、依赖底层运算库和特殊硬件的支持以及压缩目标比较单一等。针对这些现状，本文提出了基于生长式族群的定制化模型压缩框架，通过总结主流深度网络结构设计上的精髓，定义了多个提升网络结构能力的增强操作。从预定义的原始基础模型结构出发，在待压缩模型的引导下，对基础模型结构进行迭代增强和重训练，并综合性能、前向时间、大小和结构性四个方面定义了适应度去评价增强后的模型对原始模型的模拟能力，从而选择符合不同适应度的模型，实现灵活的模型压缩。　　对于上述的模型及算法，本文进了相应的实验验证和比较分析。实验结果表明，本文提出的关键技术提升了目标抽取的显著性、视频浓缩的有效性和模型压缩的灵活性，并减轻了应用的局限性。

其他文献

基于RDMA的Java I/O性能优化

InfiniBand(IB)是I/O技术领域的一种新型体系结构，提供具有低延迟、高带宽特性的RDMA传输方式，为提高集群通信性能提供了支持。当前在Java应用程序中使用构建于InfiniBand网络

学位

体系结构集群通信通信层支持性能测试

整合领域相关信息的推荐系统

推荐系统通过预测用户的信息需求，向用户推荐其需要的资源（商品、电影等）。主流的推荐算法利用用户对资源的评分信息和资源的内容信息进行推荐，但很多应用场景还包含其他重要信息

学位

推荐系统领域相关信息主动学习长短期记忆网络门循环单元异构超图模型

智能信息处理中偏好的表示和修正

二元关系框架被证明可以应用在许多日常生活偏好关系处理中。本文提出使用二元关系框架来表示偏好的方法。这里的偏好指的是严格偏序的二元关系。偏好框架可以表示有限偏好关

学位

二元关系偏好信念修正全收缩偏好收缩

基于屏幕显示的非文本文字的文本化技术研究

随着教育信息化工程在全国范围内的迅速推进，迈进信息化大门的教育系统对信息的需求是惊人的，特别是一线教师有了更广阔的学习资源和交流空间，而这些信息主要以网页、电子书、数

学位

屏幕显示非文本文字文本化技术图像识别

普适计算环境下服务组合及部署的研究

普适计算(Pervasive Computing)的出现改变了传统的以计算机为中心的资源和信息获取模式，提出一种以人为本的计算方式，为人们提供随时随地、适应环境变化的资源和信息的获取方

学位

普适计算上下文协商服务组合服务选取服务部署

数值计算软件包自适应性能优化若干关键技术及评价标准研究

为了能够充分使用计算机资源，使软件运行能够尽可能地接近计算机峰值性能，研究人员一直在努力。一个思路是为计算机开发优秀的编译器，并使用编译器相关技术对软件进行性能优化；作

学位

数值计算软件包自适应性能优化评价指标HPCC测试

BPEL引擎监控平台的设计与实现

WS-BPEL作为WEB服务复合事实上的标准正引起越来越多的关注，它可以用来整合物理上分布的服务，构建复杂的业务流程。复合服务的执行依赖于分布的自治的第三方服务，其实际行为可能

学位

BPEL语言引擎监控平台监控需求描述语言AOP扩展

基于CCSDS的空间信息网Qos路由机制的设计与仿真实现

空间数据系统咨询委员会(CCSDS，Consultative Committee for Space Data Systems)是一个由各国空间组织管理部门联合组成的国际协调机构，为满足空间通信的要求，CCSDS制定了空间

学位

空间信息网路由机制服务质量通信协议

FPGA网络动态可重构技术研究

FPGA(Field Programmable Gate Arrays，现场可编程门阵列)是一种可编程的芯片，用户可以用自己编写的程序配置FPGA，从而实现预定的逻辑功能。FPGA可以解决电子系统小型化、低功耗

学位

动态可重构网络可重构现场可编程门阵列可重构计算网络配置

普适环境下服务发现的语义支持机制

随着计算能力和通信能力的增强，计算设备所占用的体积也越来越小，各种新形态的传感器、移动设备及无线网络设备日趋普及。这极大地促进了以无线、移动和嵌入式设备为基础的普适

学位

服务发现协议语义支持近似匹配上下文敏感服务选择普适环境

面向智能前置场景的视频线索归纳关键技术研究

与本文相关的学术论文