论文部分内容阅读
计算机科学的发展使得语音识别技术得到了广泛的发展和应用,但是非特定人语音识别的性能要远远逊于特定人语音识别系统,这主要是由说话人之间的差异造成的。集成了语音识别引擎的计算机辅助语音教学系统,作为一种非特定人语音识别系统,同样也存在着说话人差异造成的缺陷。因此,对包括语音教学系统在内的非特定人语音识别系统,进行说话人归一化和说话人自适应算法的研究是很必要的。本文以汉语语音教学系统应用为目的,研究说话人归一化与说话人自适应,做了以下工作。
基于已有的VTLN算法,本文将VTLN算法中的频率折叠因子搜索范围扩展到0.70≤α≤1.30,实验结果证明经过扩大频率折叠因子搜索范围,语音识别器识别性能有所提高,并且男生说话人和女生说话人的频率折叠因子分布更加趋于合理化。
基于已有的VTLN和MLLR自适应算法,提出了一种将VTLN和MLLR相结合,适用于汉语教学系统的算法,并利用CASIA北方口音语音库对该算法的性能进行检验。实验结果表明,和基线识别率相比,单独的VTLN能够使WER降低10.20%,单独的MLLR能够使WER降低5.30%,VTLN和MLLR相结合使WER降低16.07%。实验结果表明了VTLN和MLLR相结合的算法实现了单独的两种算法性能的叠加。