论文部分内容阅读
随着现代信息技术,特别是数字信号处理技术、网络多媒体技术的迅猛发展,越来越多的声音信号被数字化处理,并以各种音频格式存在。基于此,人们迫切地需要能够在音频数据流中对音频内容进行识别和理解的有效技术手段,从而高效地利用这些音频资源,并为各种智能系统提供基于声音的决策依据信息。音频场景是指语义上相关,时间上相邻的若干声学事件所组成的一个音频片段,此片段总是蕴含着高层抽象概念和特定的语义表达。音频场景识别是对音频语义内容高层次的识别和理解,该技术可广泛应用于信息内容安全、智能监控、无人驾驶车辆、智能会议室等领域。传统的音频场景识别方法,如高斯混合模型方法等,一般在短时上进行建模和识别,在长时上根据短时得分进行综合判决。这种方法忽略了声学内容在长时上的分布特性,且不适用于目标声学内容与非目标内容混杂的情况。本文提出了三种在长时上进行建模的锚空间音频场景识别方法,并设计了一个识别任务对这三种方法的性能进行了验证,在一段娱乐节目中根据音频寻找“令人激动”的场景片段,该场景一般对应较激烈的欢笑声和鼓掌声等。锚可以看作一个类别的原型表示,是根据信号产生的矢量到类别的一种映射关系。本文提出了三种面向音频场景的锚空间构造方法,并设计了相应的场景识别方法:1)基于状态变化统计量的锚空间音频场景识别方法。此方法将音频特征在时序上的变化量转化为若干变化状态,基于这些变化状态的统计信息张成锚空间,每个目标音频文件在此锚空间中映射成一个锚矢量,将此锚矢量当作目标场景的一个模板,从而构成目标场景库;2)基于高斯混合模型的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标高斯混合模型,集外音频文件训练得到集外高斯混合模型,基于各高斯分量的均值矢量张成锚空间,通过计算余弦距离将音频帧映射到锚空间中的一个点,求全部目标场景文件各帧在锚空间中的样本均值作为锚模板,目标场景由此锚模板表示;3)基于稀疏分解的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标字典,集外音频文件训练得到集外字典,基于其字典原子张成锚空间,稀疏分解得到的稀疏系数为此锚空间的坐标。实验数据为从网络上下载的娱乐节目,实验结果表明,三种基于锚空间的方法对节目中令人激动的场景都有很好的识别效果。特别是基于状态变化统计量的锚空间音频场景识别方法,其召回率达到85.67%时,其对应的错误接收率仅为9.57%。最后通过系统总结,提出了尚需完善和改进的方面。