论文部分内容阅读
语种辨识就是用计算机来自动识别一段语音属于哪种语言的一项技术,它是在语音识别基础上发展起来的。随着语音识别技术的不断发展,语种辨识作为语音识别的一个方面和它具有的重大意义,也越来越受到人们的广泛重视。从上个世纪七十年代到现在,语种辨识虽然只经历了短短的几十年的发展,但识别方法己有多种。这些方法虽然各有特点,但比较成熟的方法还不是很多。目前,我国对语种辨识的研究较少,尚处于起步阶段。
语种辨识与传统的语音识别虽然有一些相似之处,但也存在许多不同的地方。语种辨识主要是要寻找不同语言之间的差异,而不用具体判断每段语音中的内容是什么,这种差异体现在几个方面:不同的语言发音方式不同;不同的语言的韵律不同;不同的语言词法、句法不同。充分利用这些差异才能达到更好的语种辨识效果。
本文提出窗移美尔倒谱最小失真的方法,对语音进行子词分割处理,对切分后的语音子词提取声学层次上的信息,即计算其美尔倒谱参数(MFCC),并结合其一阶差分特征一起作为子词系统中语音的声学特征。利用聚类的方法将它们聚成Ⅳ类,并对每一类的子词建立一个隐马尔可夫模型(IIMM)。用国际标准语种库OGI-TS中的语料,在六种语言和10s测试语音的子词系统下识别率为71.67%,取得了较好的语种辨识结果。实验结果说明基于子词切割的语种辨识系统是一个易于分割和实现的有效语种辨识系统。
本文进一步提出利用超声层次上的韵律信息建立模型来进行语种辨识。在子词分割的基础上结合元音/辅音检测模型将语音分割为CV的假音节模型,然后对每个假音节提取一个五维的特征P={D<,v>D<,c>N<,c> E F<,O>}的韵律参数。分割结果比传统的分割方法更适合韵律信息的提取,在韵律系统中,对所有的语言建立一个高斯混合模型(GMM),并从两个方面去考察模型建立的好坏,即研究模型的离散度和模型之间的干扰程度。在五种语言10s测试语音条件下韵律信息的平均识别率为65%。实验表明,对每种语言建立GMM的韵律模型对不同的语言、不同的语系和同一语系中不同语言均具有一定的区分效果。本文将以上两个系统进行两级判决形式的融合研究。两个系统融合后识别率提高至75%。实验表明,通过这种融合获得了比单利用子词系统或者韵律系统更高的识别率。
最后,本文通过具体实验对影响系统识别性能的因素进行深入分析,并加以归纳和总结,指出今后努力的方向。