论文部分内容阅读
语种识别是计算机分析处理一个语音片断判别其所属语言种类的过程,是语音识别的一个重要研究方向。随着全球化进程的不断加快,语种识别在多语种信息服务、机器翻译及军事安全等领域都有广泛的应用前景。本论文依托国家863计划某重点项目,以研制多路语音实时处理的语种识别系统为目标。在深入研究语种识别主流算法的基础上,本文以高斯混合模型超矢量-支持向量机(GSV-SVM)系统为研究对象,重点对该系统目前存在的训练测试失配、短语音的识别性能欠佳等问题及系统的多核DSP实现展开研究,主要工作及成果如下:1.研究了基于GSV-SVM的语种识别系统关键技术。针对语种识别特征参数易受信道及说话人等因素干扰的问题,通过实验对特征域补偿方法进行了分析探讨,并依据实验结果分析确定了各方法的合理顺序,作为基线系统的默认配置。针对基线系统的测试实验取得了良好的识别性能,为后续的研究打下了坚实的基础。2.提出了区分加权干扰属性投影算法。针对语种识别中训练测试失配的问题,该算法首先利用训练语音协方差矩阵特征值的离散度,对各语种训练语音的干扰源进行量化估计,然后利用该估计值的规整值作为训练投影矩阵的权重。该算法得到的投影矩阵能更彻底地去除信道、说话人等语种无关的干扰信息。该算法简化了投影矩阵的训练过程,降低了对训练语料信息标注的要求。实验结果表明,该算法能够有效提升系统的识别性能。3.提出了区分性Model Pushing算法。为提升短语音语种识别的性能,该算法将SVM训练得到的支持向量在其法向量方向上适当移动,利用移动后的支持向量重构目标语种和非目标语种的GMM模型,基于此模型对特征参数计算对数似然得分进行输出判决。该算法继承了GMM-UBM在短时识别上的优势和GSV-SVM良好的区分性,且模型对特征参数的分布描述更加充分。根据区分性ModelPushing算法的判决特点,提出了特征域区分加权干扰属性投影算法,用以去除特征参数中的非语种干扰信息。实验结果表明,该算法对系统性能有明显的改善,且相对于30s语音,10s语音的测试性能提升更加明显,说明该算法能够有效提升短语音的识别性能。4.实现了基于TMS320C6678的语种识别系统。基于TMS320C6678平台的特点,对本文提出的语种识别改进算法及代码进行了相应的优化。根据语种识别系统的结构,对系统任务进行了并行设计,对平台的计算资源和存储资源进行了有效配置。实验结果表明,基于TMS320C6678的语种识别系统能够实时处理至少132路语音信号,且识别性能与VC++2010环境下的计算结果完全一致,为系统多路语音的实时处理及准确识别提供了可靠的保障。