基于显著内容的视频结构化技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dongjuanqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和多媒体技术的快速发展,以图像、视频为信息流的互联网、物联网产品不断涌现,自媒体时代已然来临。在直播网站、视频号、影视媒体等依托视频作为信息主要载体的平台上,时时刻刻的传输着海量的视频数据,并呈现着更新周期短、产生速度快、种类多等特点。与此同时视频数据存在着存储成本高、不易维护和检索困难的问题,尤其是监控类视频中包含大量冗余信息,无法快速定位关键信息。因此迫切需要研究一种能对视频中感兴趣内容自动提取并实现结构化描述的技术来解决上述问题。视频结构化是通过提取视频主要信息并自动分析,并将视频数据转换为文本信息等描述形式的技术。不同种类的视频需要结构化的信息各不一样,例如影视类视频更关注人物、场景信息,安防监控类视频更关注行人、车辆信息等。由于视频的内容复杂,冗余度高,导致能够对视频显著内容的提取并结构化描述的技术也成为视频处理的热门问题。其中视频的显著内容包括视频的固有属性信息、感兴趣目标信息、关键帧信息、关键帧内容描述信息等。本文基于关键帧提取、目标检测、图像描述等技术,在传统图像处理技术的基础上,结合深度学习技术,提出了基于视频显著内容的视频结构化技术,主要研究内容如下:(1)针对传统视频结构化方法结构化信息不够丰富、容易缺失感兴趣内容信息、缺乏高级语义描述等缺点,结合目标检测、关键帧提取、场景识别、动作检测、图像描述技术对视频显著内容信息进行提取形成结构化信息,提取的结构化信息全面丰富,同时相对于传统的结构化方法,可以设置不同感兴趣目标生成侧重点不同的内容描述,减少结构化信息的冗余,便于视频内容描述、检索、存储。(2)针对YOLOv4-tiny目标检测模型的检测精度较低的问题,基于InceptionRes Net模块、sc SE注意力机制模块与SPP模块对网络模型进行改进和优化,增强了网络对输入图像的特征提取能力,经实验验证,能有效提高YOLOv4-tiny算法的检测精度。(3)结合传统方法和深度学习方法,提出了基于感兴趣目标分布的关键帧筛选方法。通过对图像底层特征和深度特征的融合,采用自适应阈值来实现镜头初步分割,再通过目标检测结果划分子镜头和筛选出关键帧。该算法提取的关键帧不仅代表性更强,而且能较大程度保留感兴趣目标信息。
其他文献
蛋白质羰基化(protein carbonylation,PCO)是一种由持续氧化应激诱导的翻译后修饰(post-translational modifications,PTMs),具有稳定性、不可逆性和相对早期形成的特点。研究发现,蛋白质羰基化可引起蛋白质结构的不可逆变化和原有生物功能的丧失以及细胞和组织功能障碍,进而导致细胞活力下降,甚至细胞死亡。蛋白质羰基化与细胞凋亡、衰老以及一些慢性疾病如
目的:鼻咽癌的发生和发展与EB(Epstein-Barr)病毒感染显著相关。潜伏膜蛋白1(latent membrane protein 1,LMP1)被EB病毒编码,通过介导NF-κB信号转导通路在鼻咽癌的发病机制中起着重要作用。肿瘤坏死因子α诱导蛋白3(tumor necrosis factor alpha inducible protein 3,TNFAIP3)作为一种泛素编辑酶,在NF-κ
头颈癌在全世界癌症中发病率排名第六,5年总生存率只有50%。其中90%以上为头颈部鳞癌。根据课题组前期研究,细胞外囊泡在肿瘤微环境中发挥着信息交流的作用,并且癌细胞热衷于利用这种通讯工具,与免疫细胞相互作用,协助肿瘤免疫逃逸。因此本研究探讨了头颈鳞癌在乏氧、放疗刺激下分泌的细胞外囊泡(EV:Extracellular Vesicles)对巨噬细胞产生的影响,并利用代谢组学探讨可能涉及的代谢通路的改
4μm波段激光在工业生产及国防军事等领域具有重要应用,这使其成为光纤激光的重要发展方向,直接激射稀土离子掺杂光纤在产生1~3.5μm激光的应用中已显示出简单高效的优势,然而,目前国际上还未有实现4μm波段光纤激光高效激射的有效方案,因此,探索稀土离子掺杂光纤在4μm波段的激光动力学特性,对产生高效4μm波段激光具有重要科学意义和应用价值。针对现状,本文着重研究了掺Ho3+和Dy3+氟化物光纤在4μ
鲁棒自适应波束形成算法(Robust Adaptive Beamforming,RAB)一直是阵列信号处理领域一个重要的分支,在很多领域都有着广泛的应用。在传统的鲁棒自适应波束形成算法中,普遍存在的一个问题就是估计的期望信号导向矢量会收敛于干扰子空间,使得期望信号被当做干扰抑制,而干扰被当做期望信号无失真输出,从而导致波束形成器的性能下降。为了提高自适应波束形成器对各种误差因素的鲁棒性,本文进行了
人工智能中的推理研究表明人类大脑很多时候并不是完全基于精确推理的,现实世界的信息是不完备的。一方面,信息往往具有不确定性,这意味着我们通常对感兴趣的变量施加软约束(soft constraint)。另一方面,在处理真实世界中不完美的信息时,只考虑不确定性是不够的。信息的另一个重要性质是它的部分可靠性。事实上,对变量的任何估计,无论是精确的还是软的都取决于我们对所处理的信息来源的信心。因此,不确定性
城市环境多路径信号联合探测技术指的是利用城市环境中丰富的电磁波衍射、反射多径信号,实现对建筑环境非直视目标检测、定位、成像及跟踪的技术,其是实现建筑遮蔽目标探测的新质手段,该技术在反恐维稳、城市巷战、区域监视和智能驾驶等领域具有重大的研究和应用价值。本文围绕建筑环境非直视目标探测问题,开展了城市环境多路径信号联合探测的基础理论问题研究,主要内容如下:1、针对复杂城市环境探测场景,首先基于电磁场与电
由于目标与环境场景具有紧密相关性,根据SAR图像场景先验信息,在SAR图像中快速获取目标潜在区域,是提高目标检测效率、降低虚警、实现目标精确检测的首要环节。高分辨率SAR图像地物具有起伏变化明显、纹理特征丰富等特点。基于像素级的处理方法的计算粒度过于精细,而且没有充分考虑像素间的空间组织关系,因此难以有效获取SAR图像多尺度目标潜在区域。本文围绕SAR图像,主要解决多尺度地物分类精度低、目标潜在区
传统保护区采用护林员巡逻方式进行自然防护及动物寻踪,但往往效率较低,且人力物力消耗较大。通过部署保护区通信系统,可以较好的改善信息闭塞的现状,一方面,可提高信息(文本、图像、视频等)的传输灵活性;另一方面,能降低护林员定期维护巡回的频次。不同环境及需求的保护区,可因地制宜地采取网络架设方案:对有配套供电、线缆及机房条件的保护区,可部署有线视频传输系统;对仅有供电条件的保护区,可部署嵌入式无线传感器
三维地质模型是描述及表示地下结构的重要工具,是地质学者研究关键地质构造的参考依据。地震解释数据具有不连续性、不一致性,传统建模过程仅从计算机图形学的角度入手,重构的模型可能存在构造不合理之处,构造建模的难点就是这样信息缺失的条件下构造出符合地质规律的合理模型。因此,从地震解释数据模型中提取出语义信息,是三维地质建模中的关键环节。现有的地质模型语义描述体系着力于对其几何形态的研究,而忽略了其中隐含的