论文部分内容阅读
语音激活检测技术采用一定的信号处理技术来检测输入信号是否包含有语音,是语音通信领域的关键技术。随着移动通信和网络电话的飞速发展,语音激活检测广泛应用于语音编码、语音增强以及语音识别等系统以降低语音编码速率,提高通信系统性能。传统的语音激活检测方法包括基于门限比较的算法、基于模型匹配的算法等。然而,基于门限比较的算法中,固定的门限值往往不能适应不同类型和信噪比的背景噪声环境;而基于模型匹配的算法中,假设的背景噪声模型可能与实际背景噪声环境存在较大差异。因此,这两种算法在复杂噪声环境下的性能都得不到保证,提高复杂环境下语音激活检测算法的稳定性和准确性依然是近年来研究的重点,对于语音通信系统的发展有着重大的意义。支持向量机作为一种基于机器学习的分类方法,在解决音频分类、语音识别问题时体现出良好的性能。因此,针对现有算法在复杂环境下性能下降的问题,本文通过学习研究高斯混合模型(Gaussian Mixture Model,GMM)算法、支持向量机(Support Vector Machine,SVM)算法,并结合多种语音特征值,提出了复杂环境下准确性和稳定性较高的语音激活检测算法。具体工作如下:第一,提出一种基于GMM和SVM的语音激活检测算法,旨在实现不同背景噪声环境及信噪比条件下准确性和稳定性较高的语音激活检测。该算法包括如下几个步骤:首先,使用改进的多类SVM对噪声环境进行分类,根据不同的噪声环境选取适合的特征参数;其次,利用GMM算法对所选取的特征参数进行变换,将经GMM聚类后得到的高斯超向量作为SVM语音激活检测系统的输入;最后,使用高斯超向量构造K-L核函数,并选取最优SVM参数,设计SVM分类器,准确区分噪声和语音。仿真结果表明,提出的算法与经典的基于GMM的模型匹配语音激活检测(Voice Activity Detection,VAD)算法相比,在人群噪声环境、机器噪声环境及白噪声环境下都具有更高的准确性,并且在低信噪比条件下优势更为明显。第二,提出一种基于短时能量和相关性的多特征值VAD算法,旨在保持较低算法复杂度的前提下提高IP电话(Voice over Internet Protocol,VoIP)系统回声消除模块中远端语音激活检测的准确性。该算法通过引入远端信号与近端信号的互相关这一特征值,排除了远端信号实际只包含近端残留回声的情况,提高远端VAD的准确性,从而避免远端无语音情况下滤波器的错误更新和滤波。仿真及实际测试结果表明,相比经典的基于能量的远端语音激活检测算法,所提远端语音激活检测算法可以更准确地判断远端语音活动性,从而有效地改善回声消除的效果。