基于机器学习方法的视频标注研究

被引量 : 0次 | 上传用户:zhanghai_007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储设备、计算机网络和压缩技术的发展,产生了大量的视频数据,如何有效地处理和访问这些数据,成为一个迫切需要解决的问题。视频语义标注可以根据视频所体现的内容按概念对其赋予标号,在此基础上可以实现高效的视频数据处理(如索引、检索和缩略等)。完全使用人工来实现视频标注任务,无疑可以获得相当精确的结果。然而手工标注是一项费时费力的工作,无法在大规模的数据集和概念集上应用。因此,使用机器学习方法来实现这一任务成了必然的选择。本文主要针对基于机器学习的视频标注展开研究,提出了一系列方法,以期能够对非特定领域数据集和概念集,自动地或在尽量少的人工参与情况下,取得与完全手工标注尽可能接近的结果,达到可实际应用的目的。本论文的主要研究工作如下:1.在传统的核密度估计方法中引入未标注数据的信息,提出了半监督核密度估计以及半监督自适应核密度估计,以解决视频标注中训练数据不足的问题。传统的核概率密度估计方法形式简单,便于使用,但是其性能非常依赖于训练样本的数目,当训练样本很少时,会导致其性能降低。而在视频标注中,训练数据不足是经常遇到的问题。通过引入未标注数据,可解决这个问题,改善核概率密度估计方法的性能。另外,木文还分析了所提算法和基于图的半监督学习之间的关系。2.我们提出了一种统一自动视频标注方法。除了训练数据不足的问题.视频标注中还存在着一系列其它的问题,包括维数灾难、距离度量的选择和时间连续性的挖掘。本文通过分析,指出这些问题都可以归结为样本的相似性度量问题或者半监督学习问题,因此这四个问题的应对可以描述为一个多图半监督学习的问题。本文提出一种名为最优多图半监督学习方法,将多张图集成到一个正则化框架中,并且可同时优化这些图的加权系数。3.研究基于多概念多模态主动学习的半自动视频标注。主动学习是一种人机结合的学习途径,其通过学习和样本选择的迭代进行,可选出比随机挑选方法更为有效的训练集。因此使用主动学习来进行半自动视频标注,是解决训练数据不足的一种新途径。然而已有的主动学习算法大多没有考虑视频标注中的多概念和多模态的特点,本文针对这一问题提出了多概念多模态主动学习算法,可同时考虑这两个问题。在主动学习的每一轮中,具有最大期望性能增益的概念被选择,并且选取一批合适的样本来对该概念进行标注。在选取样本的过程中,从每个模态选取的样本数被限定为与该模态的期望性能增益成正比。之后,对每个模态使用基于图的半监督学习算法来标注该概念。通过这种途径,可充分挖掘人工标注的劳动,在尽可能少人工参与的情况下获得更好的标注结果。4.研究对视频镜头大小的标注。目前视频标注中的待标注概念大多集中于场景、事件和物体等,而忽略了镜头大小这种特殊的概念。与一般的概念不同,视频镜头大小概念有其自身的特点,例如其互斥而又具有一定的顺序关系。此外,对于视频镜头大小的标注仅采用常用的底层特征很难取得好的效果,而这些概念与一些中层特征,例如视频帧中物体的数目以及大小等,有较强的联系。因此,本文介绍了一种基于底层特征和中层特征互训练的方法来标注视频镜头大小,此外,针对三种镜头大小概念之间的关系,引入代价函数并实现代价最小的判决。虽然本文所提的算法都是面向视频标注,但是很多方法实质上也能直接应用于其它领域(如半监督核密度估计和多图半监督学习等),在文中也会有具体介绍。视频标注问题,涉及到机器学习、计算机视觉以及认知科学等多个领域,希望本文的研究工作,也能为相关领域提供一些新的思路与方法。
其他文献
目的:研究探讨不同引产时机对足月胎膜早破孕妇引产效果及母婴并发症的影响。方法 : 选择2017年11月至2017年12月本院足月胎膜早破孕妇80例进行讨论,把所有患者随机分为两组各40
本文对组织结构与IT匹配对组织绩效的影响进行实证研究。通过对131个中国企业样本进行统计分析,发现IT基础设施、组织结构的规范化、协调机制对组织绩效有显著的正向影响。在
实验动物产业是生物经济和生物产业的基础,是生命科学研究的重要支撑条件。文章基于对广东省实验动物产业广泛深入的调研与分析,提出云南省实验动物产业和昆明市实验动物产业发
中国境内的纳西族和藏族的关系史,历来是学界关注的重点。两个民族间良好民族关系的历史经验,有许多值得思考与借鉴的地方。历史上的纳西族人口较少,聚居于民族分布的交接地
随着我国养殖规模的扩大,畜禽粪便排放量也不断增加。大量的畜禽粪便会造成严重的环境污染问题,但是如果用科学的方法对其进行处理,不仅可以控制污染,保护环境,同时还能够为
本文紧密结合工程实际应用,以精密车削加工机床为研究对象,以进一步提高车床加工精度为目的,在收集了大量资料的基础上,研究一种采用双平行四杆弹性铰链机构做导轨、电致伸缩
目的:研究抗坏血酸有机锗倍半氧化物的合成路线;表征目标化合物的结构;研究其生物活性,包括毒性、抗癌活性和抑制鸡胚尿囊膜血管生成三个指标。方法:以二氧化锗为原料,利用三氯锗烷
阿斯多尔·皮亚佐拉是阿根廷著名的探戈作曲家和演奏家,被称为“现代探戈的革命之子”。其开创性地将古典因素和现代爵士因素注入到探戈当中而形成的新探戈感染了全世界。其
绘画,是在二维的平面上进行的。按过去的说法,即要在二维的平面上表现三维的空间。但是我们知道,时间、空间是不可分的,建立了这一概念,有助于我们以时间的整体性去理解画面