论文部分内容阅读
视频分析是多媒体信息处理的重要研究内容。多媒体信息呈现爆炸式增长,海量视频数据需要高效的浏览、检索工具进行管理和访问。现有内容分析技术大多是基于非语义低层物理特征,不仅难以理解而且与人类思维中的高层语义概念相差甚远,严重影响和制约了基于内容的视频管理、检索技术进一步推广和应用。如何跨越低层特征和高层语义概念间的语义鸿沟,以语义概念来管理、访问视频数据,已成为多媒体领域颇具挑战性的研究课题。 本文基于统计学理论,提出了一个视频数据多粒度语义分析和提取的通用解决方案。在该方案中,多层次语义分析与多模式信息融合技术在同一模型中得到统一和应用。本文首先提出了一种基于统计分布的镜头渐变边界检测方法,并用一种具有时间语义语境约束的关键帧选取策略对时域内容进行表示;然后在基本视觉语义识别后,得出一种层次的多粒度视觉语义分析提取框架;随后把时频变换得到的声音频谱作为可观察特征,构建了基本声音语义识别的隐马尔可夫模型,通过语义窗口获得基本声音语义组后,按照高层逻辑定义提取音频高层语义;最后仿照人脑多感觉器官信息融合机理,将视频中多模式特征按不同类别进行划分,设计了一种基于仿生的视频语义分析两级多模式信息融合算法。 本文的创新点是: (1) 提出一种多层次/多粒度视觉语义分析的通用框架。仿照人类视觉系统的注意力机制,利用时空注意力模型选择动态和静态显著区域;将所选区域用模式分类技术进行基本视觉语义分类识别;设计了一种适合基本视觉语义分类识别的特征选择算法;得出一种定步长组合划分方法,用于对具有多峰分布属性的特殊显著区域进行基本视觉语义识别;将高层视觉语义看作是隐含状态,利用层次隐马尔可夫模型和帧切片策略建立时间语义语境约束后,对高层视觉语义进行提取。 (2) 提出一种对音频语义分析和提取的方法。采用隐马尔可夫模型(HMMs)对分析窗口内的基本声音语义进行识别;以贝叶斯决策排除语义窗口声音段中的未定义基本语义;按贝叶斯公式计算最大后验概率后,得到语义窗口内的一个基本声音语义组;采用高层语义逻辑定义来描述基本语义与高层声音语义概念间的联系,最终提取高层音频语义。 (3) 通过对人脑多种感官信息融合机理的分析,提出一种基于仿生的视频语义分析两级多模式信息融合算法。首先分别进行视频图像、音频、文字等各部分内的多模式特征融合,然后通过基于核的非线性算法把输入空间变换到高维特征空间,在特征空间中求取最优线性分类面,最终得到融合多模式信息的视频语义。