论文部分内容阅读
在处理多媒体数字信息时,特别是对多媒体文件进行语义层的解析、归纳和建索引时,音频信息常会起到关键作用。目前,很多研究工作都围绕对纯净、单一的音频事件进行检测和识别,而对于多媒体文件,如电影等,音频事件种类繁多,其主要难点是音频场景复杂多样,其中的音频事件类型多变,有大量容易混淆的音频种类,而且音频事件常常同时发生,在时间上有交叠,使得音频数据样点在特征空间内分布复杂。此时,现有的对单一音频事件的检测和识别的方法就有很大的局限性。本文主要针对电影等复杂音频环境,研究单一音频事件的检测,基于信息熵混叠音频事件检测,其中重点研究,在混叠音频环境中,场景依赖的音频事件检测和识别。本文的主要工作如下:1、单一音频事件检测研究对单一、纯净的音频事件的检测是音频场景分割和识别的基础,本文分别采用混合高斯模型GMM模型和支持向量机模型SVM,针对电影音频应用中经常出现的音频事件进行建模和识别。针对复杂音频环境中,音频事件的特点,对比GMM和SVM分类器的特点和分类结果,选择更适合做音频事件分类与检测的分类器。同时针对不平衡数据集的分类做了初步的研究和探索,提出了欠采样改进的办法。2、提出一种基于信息熵计算的混叠音频事件检测算法针对复杂音频环境中的混叠音频事件,提出了一种以信息熵和关键音频事件检测为判断依据(Information Entropy Criteria-Event Detection, IEC-ED)的混叠音频事件检测的方法。在对音频进行分析时,人们对一个具有完整语义的音频场景的认知更感兴趣,因此在语义分析时,需要保留音频场景的语义完整性。由于场景中会有若干不同的音频事件交替或重叠出现,因此不能根据单一的音频事件判断复杂音频场景的语义信息,对于这种情况,可以通过信息熵判决及音频事件检测判断复杂音频场景中混叠音频片段。3、提出一种场景依赖的音频事件建模算法对于混叠音频事件识别,提出一种采用统一背景模型GMM-UBM (GMM-Universal Background Model)模型的识别方法,同时对音频场景和其中的关键音频事件建模,首先对完整的音频场景进行建模得到UBM,并使之尽可能包含完整的场景信息,然后在UBM的基础上,为场景中的各个关键音频事件分别建立GMM模型,由于事件的GMM模型包含了场景信息,避免了由于场景敏感而产生的形变对识别结果的影响。