论文部分内容阅读
视频、图像和音频等多媒体数据已经成为信息处理领域的主要信息媒体,其中音频占有很重要地地位。传统的基于文本的检索存在主观性和不完整性等缺点,为此基于内容的音频检索成为未来必然的研究和应用方向。音频的特征提取与分类是音频检索的基础。如何基于不同的规则提取更加有效的特征以及如何根据提取的音频特征进行更有效的分类是本文的主要研究工作。
本文针对基于小波变换的音频特征提取和分类的关键技术展开分析,主要集中在以下两个方面:(1) 音频信号特征提取与分析。对不同变换域的特征进行表征,包括时域特征、频域特征以及时频域特征。主要是研究小波变换域的特征提取与特征描述,提取的特征包括质心、带宽、过零率、小波子带能量、基音频率等。基于不同的时间长度上的音频特征提取,主要包括基于短时音频帧的特征提取和基于音频片段的特征提取,其中基于音频片段的特征有相当一部分是在短时音频帧特征的基础上得到的,如质心、带宽等就是对每一帧韵质心带宽求均值得到的;静音比和零过零率比则是在短时帧特征的基础上通过求比运算得到的,当然也有基于整个音频片段的特征,如小波子带能量、近似子带过零率周期等。与传统的特征提取相比较,基于小波变换的特征提取能够减少运算量,节省时间。(2) 音频分类方法的研究。典型的音频分类算法有很多,包括神经网络法,隐马尔可夫模型法、支持向量机法、最近特征线法等。这些方法各有优劣,也有不同的适用性,本文主要研究隐马尔可夫模型方法和支持向量机方法在音频分类中的应用,并把两种分类算法结合起来设计新的分类算法,在隐马尔可夫模型训练中充分应用时间序列的优势,使用短时音频帧特征进行训练,得到样本在每个 HMM 模型下的概率,在 SVM 训练中则使用基于片段的音频特征与 HMM 概率特征进行训练,从而把音频分为纯语音、音乐、带背景音乐的语音和环境音四种类型,达到了比较好的分类效果。