论文部分内容阅读
随着计算机的普及和多媒体技术的不断发展,多媒体信息对人类生活的影响越来越大,但是如何快速的从海量的多媒体信息中找到想要的信息,就需要先对音频信号进行分类,在分类的基础上再进行检索,从而提高音频检索的效率。虽说音频分类是一种模式识别过程,但是还涉及到很多其它学科:统计学、数字信号处理、模式识别、语音识别和神经网络等。音频分类在多媒体信号的有效编码、自动语音识别、音乐流派分类和乐器识别、视频会议、军事、侦查等应用领域有重大的应用价值和广阔的前景。本文阐述了音频分类技术的发展背景和意义,在分析了国内外音频分类技术的基础上将音频信号分为静音、语音、音乐和带背景的语音。研究了音频信号的发声原理,为了降低噪声等因素的影响,通过预加重、切分和加窗分帧处理等手段,在对音频信号特征提取之前进行了预处理。完成了音频信号特征提取,特征提取可分为时域特征的提取和频域特征的提取,时域特征有短时平均能量、过零率、子带能量比和频谱质心等;频域特征有静音比率、低频能量比、高过零率比和低过零率比等。根据音频信号的时变特性给出了一种基于隐马尔科夫模型(HMM)和支持向量机模型(SVM)的级联分类器。HMM模型采用的是Baum-welch算法来进行参数的求取,SVM模型采用的是vSVM算法进行参数的求取。设计的隐马尔科夫模型(HMM)和支持向量机模型(SVM)的级联分类方法:基于规则的音频分类,首先判别音频是否为静音,如为静音则直接给出分类结果,如为非静音样本则用已训练好的HMM分类器进行分类,同时计算出信号最大输出概率和次大输出概率,将HMM输出的最大概率和次最大概率作为SVM的输入样本,判断使用相应的SVM分类器进一步进行分类。从而将两类分类器有效的结合起来。对单独HMM分类器、单独SVM分类器和给出HMM和SVM级联分类器进行了仿真实验。通过仿真实验结果的对比分析了三种分类器分类性能,证明本文给出的方法,提取的特征有效,构建的HMM和SVM级联分类器分类效果较好,提高了音频分类的精度。在音频信号分类算法研究方面具有一定的实际参考意义。