论文部分内容阅读
对视频图像进行语义信息的提取,可以满足用户基于语义的检索需求。在现有的一些语义信息提取方法中,存在如下问题:(1)如何构建合理的语义概念层次;(2)如何有效地表征视频图像所涉及的语义概念;(3)如何自动发现语义概念间的关联性并加以利用;(4)如何动态地融合语义信息;(5)如何挖掘视频在时域上的依赖信息并加以利用。针对上述问题,本文提出了三种方法,从不同层面分别进行解决。首先,本文提出一个自底向上的层次化语义提取框架。这个框架将视频镜头的底层特征、语义概念中的物体和语义概念中的场景划分为由底向上的三个层次。这个层次结构简单,也具有较好的表征能力。视频镜头的底层特征是在对视频镜头关键帧分割后的区域上提取的。针对每一种底层特征和每一个物体概念,训练得到的支持向量机,用本文提出的boosting方法,在不同特征上进行融合,得到了针对显著物体的检测器。本文提出了两种利用这些检测器的置信度输出,对视频镜头进行语义表征的模型向量,并在这两种模型向量的基础上对场景概念进行学习。实验证明本文的语义概念层次的有效性、boosting融合对性能的提升以及所提出的模型向量的优势。接下来,对于半自动的图像标注,本文将它形式化为一个多标记学习问题,并提出了一个基于辅助标签的半自动图像标注方法。该方法将归一化互信息作为定量地衡量语义标签之间关联度的指标,并采用一种动态混合模型改善标签的分类结果。该方法具有一个框架性的结构,很容易与标签的相关反馈信息结合,加速人机交互过程。实验结果表明该方法可以改善不同学习算法的分类结果,而且能够更有效地利用相关反馈信息,具有比其他方法更快的人机交互速度。最后,本文挖掘视频镜头在时域和空域上的关联信息,寻找同一镜头和相邻镜头中有助于一个目标物体检测的辅助物体,并确定这些辅助物体能够提供最大辅助信息的位置,这些辅助信息在一个动态混合模型中被整合,提高了原来的视频镜头中的物体检测性能。