论文部分内容阅读
多语言语种识别(LID)技术在多语种语音信息服务,多语言语音识别系统、多语言语音翻译系统和多语种广播节目监控系统中都起着很重要的作用。本文面向多语种广播节目监控的实际应用,对语种识别的预处理、语种识别及其置信度技术和语种识别系统进行了研究。主要内容如下:
⑴在语种识别的预处理方面,研究了如何去除真实音频信号中的音乐和噪声等非语音成分以提高语种识别的性能。结合曲线观察和性能分析,对16种音频特征区分不同两种音频类型的有效性进行了详细分析,在此基础上提出了一种基于支持向量机的音频分类方法。该方法首先基于能量门限,把音频信号分成静音段和非静音段,然后借助SVM分类器,把非静音段进一步分成纯语音、非纯语音、音乐、环境音4种类型。同传统的GMM和KNN方法相比,实验结果表明该方法具有更加优越的性能。
⑵研究了高斯混合模型在语种识别中的应用,主要包括特征提取、模型自适应和分类判决等问题,其中特征方面使用移动差分倒谱(SDC)特征代替传统的MFCC特征,分类判决方面使用混合高斯后端(GBE)分类器,由于SDC特征包含更长的差分特征信息,而GBE分类器带有线性判别分析(LDA)模块以进一步区分模型得分,从而可以显著提高系统的识别性能。
⑶将统计学习理论中的支持向量机建模方法引入到语种识别中,研究了大样本情况下SVM用于语种识别的区分性训练问题。通过使用多项式映射、最小均方误差准则算法和广义线性判别序列核函数,不仅大大减少了训练样本的数目,而且使得训练样本具有较强的区分性,从而保证系统具有较高的识别率同时,训练和识别速度大大提高。在此基础上,本文研究了辨别模型的语种识别置信度问题,提出了一种基于SVM模型得分Sigmoid变换的识别置信度方法。最后本文通过使用GBE分类器,把SVM识别系统、GMM-UBM识别系统和PPRLM识别系统在得分层次上进行融合,在OGI-TS数据集和NIST评测集上都取得了较高的系统性能。
⑷在分析多语种广播音频信号特点的基础上,把语种识别技术和固定音频检索技术相结合,设计并实现了一个面向多语种广播节目监控的语种识别系统。该系统应用了音频分类技术、语音质量评估技术、固定音频检索技术、消除噪声技术、语种识别技术和识别置信度量等多项技术。实验结果表明,该系统不仅具有实时的处理速度,而且具有可靠的识别性能,可广泛应用于广播、电视、电话以及互联网的音频内容实时监控与管理行业。