论文部分内容阅读
随着媒体数字化技术和网络技术的发展,人们的日常生活中所接触到的数字视频越来越多。相应的,对数字视频进行分析和查找的需求也越来越迫切。因此,基于内容的视频处理和检索已成为近年来多媒体处理、信息检索以及数据管理研究领域的重要课题之一。视频是由图像和音频组成的一个有机整体。经过近些年的研究,越来越多的研究者发现从图像中提取和分析视频的语义是比较困难的。与此同时,音频流所包含的语义信息要比图像流丰富,而且从音频流中提取语义信息也更加直观方便。因此,音频信息的提取和分析对基于内容的视频处理和检索具有重要的意义。结合视频本身的特点,本文在传统音频处理方法的基础上,讨论了视频处理和检索系统中,提取、分析和利用音频信息的算法和框架。其中,主要讨论了三种音频处理技术:音频类型识别、说话人信息分析和特殊音频事件检测。视频中包含丰富的音频类型,将视频根据音频的类别进行分割是在视频中应用音频信息的基础步骤。本文分析了不同音频类型的产生机制以及它们在不同音频特征上的特点,提出了一种基于最大熵模型的音频类型识别算法。该算法可以自动地挑选对分类比较有效的特征。同时,在复杂的音频环境下,该算法的性能明显优于 k 近邻、GMM 和 SVM 等常用音频类型识别算法。在现实的应用中,人(特别是说话人)经常是视频处理和检索的主要对象。本文归纳整理了视频处理和检索中说话人信息分析的框架,提出了一个基于混合高斯模型的近似 KL 距离的视频说话人信息分析算法。该算法能够有效地对视频中出现的说话人进行分割和聚类。视频中的特殊音频往往伴随着视频中某些特殊事件的发生而出现。对特殊音频事件的检测对于检索视频中的特殊事件具有重要意义。本文分别提出了基于基音频率的欢呼声检测算法和基于频谱能量分布的哨声检测算法。同时,还详细讨论了一个基于事件的体育视频索引算法。该算法利用视频关联分析融合了音频特征和其他视频特征,可以检测出体育视频中出现的事件,最终建立基于事件的体育视频索引结构。除了上述三个主要应用外,本文还对复旦大学参加 TRECVID 评测中用到的其他音频处理方法进行了讨论。实验结果表明,本文提到的部分算法的性能接近或达到了国际先进水平。