基于多视角图模型的视频摘要生成方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:feixiang_16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的快速发展,更多类型的视频出现在网络平台上。此外,5G技术的发展也促使视频数据的增长更加迅猛。面对类型丰富的海量视频,一些旨在提高视频检索效率、视频存储空间利用率的自动化处理技术也随之产生。其中,视频摘要就是视频分析领域的一项基础性工作。它可以代替人工,从原始视频流中自动捕捉最具代表性的关键帧集合,这有效缓解了存储空间不足,并提高了视频的检索速度。方法中,基于镜头边界检测的方法相对简单和实用。这种方法可以在不依赖于大数据驱动和先验知识前提下,仅通过分析视频内容特征的不连续性,便可实现快速镜头分割和关键帧提取。然而,基于镜头边界检测的方法由于依赖于镜头边界检测,因而需要解决以下问题:1)视频内容的动态性变化、物理噪音经常引起镜头内的监测特征数据偏移,这种偏移可能会使得镜头检测算法在某种场景下失效,从而产生过多的假阳性(假镜头);2)与突变镜头转换的显著变化不同,渐变镜头转换的变化不明显,且渐变转换呈现多样性(例如,叠化、淡入、淡出、擦拭),这些区别通常会限制算法的检测性能。为解决上述问题,一些研究经常从视频帧的特征表示及差异分析、镜头边界决策两个方面进行优化和创新,附带的实时性也成为衡量算法性能的一个标准。然而,这些研究仍然面临以下挑战:1)在特征表示方面,现有的多视角特征融合方法依赖于大量数据驱动或视频类型。一些方法为改善多类镜头的检测精度,组合多视角特征进行视频表示和差异分析。然而,有些方法将每个视角特征视为同等重要,或者只使用一组固定的超参数来衡量不同视角特征的重要性,而不考虑检测不同视频时同一视角特征的重要性变化。因此,算法的性能取决于视频的类型。此外,一些基于学习的方法,例如,人工神经网络和模糊逻辑方法可以针对不同类型的数据学习视角特征的权重,然而它们的性能对所收集数据的依赖性较强,限制了其实用性;2)在阈值决策方面,现有阈值性能依赖于人工频繁干预。阈值决策是一种无需额外训练的方法,因此适用于在线视频流的检测。然而,突变转换引起的显著差异和渐变转换引起的不明显差异限制了现有阈值决策的性能。例如,静态全局阈值、多阈值以及现有的一些自适应阈值都在一定程度上依赖于人工调优;3)在算法性能方面,现有算法无法较好地平衡检测精度和检测速度。例如,一些方法为提高算法运算速度,采用像素块、颜色直方图、纹理直方图等低水平的特征。虽然这些特征提取速度较快,但是缺乏对于视频内容的语义结构表示,因此在进行差异分析时容易混淆噪音和渐变转换。而采用SIFT、图模型等中高层特征,虽然这些特征可以增强模型对于渐变镜头和噪音的区分能力,但进行差异分析时需要复杂的匹配或计算方法来量化帧差。因此本文针对上述问题,做了如下工作和贡献:(1)针对多视角特征融合方法的性能受限问题,本文提出了一种基于输入多视角图的自适应加权差异融合策略。该策略旨在通过分析四种视角下图模型的结构变化来发掘各视角图特征的重要性,从而自适应地为不同视角图差异分配权重,这对于检测多种类型的镜头转换而言更具鲁棒性。(2)针对现有阈值性能依赖于人工频繁调参问题,本文提出了一种新的基于阈值的自适应决策方法。此方法可以通过分析少量的历史帧和学习当前镜头的容忍系数,动态地选择最合理的镜头边界决策阈值,从而减少人工调优次数并增强阈值对于各类镜头检测的通用性。(3)针对现有算法难以平衡检测精度和检测速度的问题,本文提出一种基于多视角可视图差异分析的轻量级视频摘要框架。与已有工作不同,此方法未对视频帧分块,而是从整个视频帧中提取联合直方图特征,进而将其建模为可视图模型。因此,仅用一个可视图模型就可以完整的表示整帧信息,可有效节约时间成本。此外,本文采用基于谱分解的差异分析方法来代替基于边权的距离度量方式。图的谱特征矩阵可以有效反映图的真实结构变化,且对于噪音不敏感,因而可进一步改善镜头检测的效果。
其他文献
随着多媒体技术的蓬勃发展以及电子设备的普及,使用扫描仪、手机、相机、监控、行车记录仪等设备获取的文本图像的数量迎来爆炸式增长。如何精准地识别图像中的文本已经成为重要的研究课题。文本识别技术主要对扫描文档图像和场景文本图像进行识别。近年来,基于深度学习的场景文本识别技术取得了巨大的进步,能够同时应对扫描文档和场景文本的识别。然而,在反光的交通指示牌、磨损的路面标识、污损的集装箱编号、被印章遮盖的文件
学位
在人口老龄化趋势日益加剧及老年人对高质量养老生活的需求日益增长的背景下,老年人对酒店的产品及服务提出了特殊要求,但我国酒店业现有的产品及服务无法满足日益旺盛的老年群体消费需求。通过问卷调查、深度访谈等研究方法调查酒店业老年消费群体需求以及酒店适老化产品供给情况,能够在供给侧结构性改革的视角下提出相应建议,探索酒店的适老化发展策略,为酒店业的创新发展提供参考。
期刊
网络控制系统的概念最早由G.C.Walsh提出,通常是指传感器、控制器、执行器和通信网络在一定区域内的集合。随着网络的加入,使得控制系统中传感器与控制器间以及控制器与执行器的通信往往会产生丢包或者数据延迟现象,从而恶化系统性能,甚至导致系统的不稳定,因此,越来越多的控制学者致力于设计更加优化的估计器用于解决含丢包或者含时滞系统的未知输入及状态同时估计问题。本文将进一步提出有效的技术和理论分析方案,
学位
世界范围内,随着城市化进程的加快,城市居民数量剧烈增加,大规模人群聚集的场景也愈发常见。这些场景中会存在较多安全隐患,容易引发公共安全事件。为了防止安全事件的发生,基于计算机视觉的视频监控系统被广泛应用在城市内部的各个公共场所,实时监控和分析各场所中的人群信息。作为视频监控系统的两项基本任务,大规模人群计数和人群定位也随之在公共安全领域发挥了重要作用,受到了学术界的广泛关注。随着卷积神经网络技术的
学位
近年来,伴随着多自主体系统的广泛应用以及协调合作控制问题的深入研究,学者们对趋同问题的研究也越来越关注。为了实现趋同,个体借助于传感网络或通信以交换共同感兴趣的信息,并利用控制协议来实现趋同。但由于网络带宽和通信信道的约束,时滞现象普遍存在于通信网络中,其不仅会降低系统的性能,甚至会破坏系统的稳定。因此研究带有延迟信息的多自主体系统的趋同受到广泛的关注。针对上述分析,本论文基于延迟的状态信息研究了
学位
在我国水果种植面积和产量逐年增长、农业劳动力短缺和国家大力倡导发展农业科技的背景下,迫切需要提升果园农机装备自动化、智能化水平。视觉系统是果园农机装备智能化升级的核心组成,其性能是实现果园早期测产和自动化采摘作业的基本保障。在复杂的果园环境下,构造目标果实的精准、高效分割算法已经成为视觉系统研究的关键。绿色果实颜色与背景枝叶颜色相近,容易对目标果实分割造成一定干扰,且在实际果园环境中,采集到的图像
学位
在线评论在电子商务中具有重要作用。不仅用户在购买产品之前需要查看相关的评论,而且在线评论也直接影响商家的声誉和盈利水平。随着电子商务的迅猛发展,虚假在线评论日益增多,严重地干扰了消费者的购物决策,污染了公平的电子商务环境。尽管已有大量的虚假评论检测方法,但是检测结果并不令人满意。首先,虚假评论的特征表示不够丰富,没有充分利用评论的多模态特征,而且缺乏检测结果可解释性;其次,评论数据集的正负样本不均
学位
随着科学技术和经济水平的发展,日常生活和工业制造变得越来越智能化,智能机器人在各个领域均得到了广泛应用。自主导航作为机器人领域的核心技术之一,具备很高的应用价值以及研究价值。近年来,相关学者提出了很多机器人导航方法,主要分为基于深度学习的方法和基于强化学习的方法。基于深度学习的方法依靠带有标签的数据进行训练,可以快速的找到一个稳定的导航策略,但是数据的收集和标记是极其耗时耗力的。基于强化学习的方法
学位
伴随着互联网技术的快速发展以及现代软件规模的不断复杂化,程序员面临着与日俱增的软件维护与开发负担。因此,为了提高软件开发的效率,程序理解技术应运而生。然而,在现有的程序理解技术大环境下,对程序特征进行多方面、多层次、多角度地分析来提取相关信息是一项极具挑战性的工作。目前,深度学习算法越来越多地被用来建立基于现有数据的深度神经网络,以探索隐藏在数据中的特征。程序理解需要从程序中提取与程序理解任务相关
学位
城市化进程的快速推进促使人们的生活方式逐渐变得丰富多彩,大量人群聚集在体育场、音乐会、商场等公共场所参加各类活动的现象愈发常见,这些场景中控制人群的规模尤其重要。此外,近几年,新冠肺炎疫情席卷全球,为防止疫情传播,各类公共场所更是对人群聚集的情形进行严格管控。因此,为保障公共场所内人群的安全,采用人群计数等手段对高密度场景的人群进行监测分析进而对人群进行及时有效地疏导具有非常重要的意义。近年来,人
学位