论文部分内容阅读
现在人们已经进入了信息化时代,并且随着科技的发展,信息在人们平时的生产和生活中变得越来越重要。这些信息以不同的方式出现在我们的生活中,如何将这些信息加以良好的有效的利用,是信息化时代赋予我们的重要使命。在这些信息中,音频信号又是其中一个不可或缺的重要组成部分。网络多媒体以及数字信号处理技术现在已经有了长足的进步。音频信号作为数字信号的一部分,其规模也日益增长。然而,对越来越多的音频数据及其中包含着的海量信息而言,如何从中找到我们感兴趣的内容,是一个难点问题,也是一个亟待解决的问题。常规人工检索的方式显然无法有效处理网络中多模态的海量规模的音频数据,所以我们需要有效的技术手段来实现音频数据自动处理和内容分析识别。而这些技术手段必将可以有效支撑现实中的各类智能系统的音频处理需求。音频场景识别是通过对音频信号中所包含的声学事件进行检测分析,从而对音频进行语义内容的理解,进而达到识别出特定的音频场景的目的。所谓音频场景是指包含特定语义的某个音频数据片段,这个语义往往具有很强的代表性和区分度,是人类分析和区别音频内容的重要依据和手段,在现实中有很多重要的应用。音频场景的识别,主要依靠提取出来的音频信号特征,和音频场景的识别模型,来识别出表征该场景的语义标签。提取一个有优良效果的音频信号特征,对音频场景的识别有很大帮助。在特征的数据分析方面,根据成分分析的思想,可以对音频信号的声学特征加以优化。本文使用稀疏分解的理论,提取出了一种音频信号的稀疏特征,这种特征具有长时的性质,在音频场景识别方面具有良好的效果。随后使用成分分析的思想,对特征进行加权优化。该方法可以获取音频信号特征中的关键成分。本文使用的稀疏分解思想,是一种信号处理的方式,最初主要应用于图像信号的处理中。在人们使用非冗余正交变换进行数据表示时,发现了很多的问题。如一些信号本身就是很多复杂的信号的混合体,在单一的正交变换中不能得到很好的表示。稀疏表示是使用一种过完备冗余函数系统的原子库来代替基函数进行数据表示的方法。其中原子是原子库中的元素。选择出原子库中的m个原子对原始数据信号进行最佳表示,就是数据信号在原子库上的稀疏分解。根据信号的稀疏分解理论,本文提出了一种新的音频场景的识别方式。首先对目标场景和集外场景分别训练原子库,并将得到的原子库组合。然后将待识别的音频信号特征在组合得到的原子库上进行稀疏分解。对稀疏分解中的原子来源进行分析,通过这些原子的是否为目标场景原子库中的原子来进行投票,来判断该音频信号的场景归属。本文的实验语料来源于网络上的真实音频数据。并将实验结果与现有的一些音频场景识别模型的识别结果进行了对比,从而更全面的展现出实验的情况,使实验结果更具有说服力。最后对实验结果进行分析,并总结研究收获。对本文中可以继续改进和完善的地方进行了展望。