论文部分内容阅读
嵌入式语音翻译机由语音识别,文本翻译以及语音合成等组成。本文根据嵌入式语音翻译机的要求,在深入分析嵌入式系统下语音识别系统的特点以及面临的主要问题的基础上,针对语音检测、口音适应、语言模型和系统实现等问题都做了较深入的探讨和研究,主要进行了以下几个方面的研究。
首先在语音端点检测方面,本文提出了一种结合多子带能量特征和最优化边缘检测判决准则的算法。该算法的突出优点在于:其一,子带的选择是根据噪声和语音的能量分布特点来选择,增加了语音和噪声的区分性;其二在不同信噪比情况下,其端点检测滤波器的输出基本不变,从而避免了门限调整所带来的困难。实验结果表明,这种算法在多种噪声环境下都能够达到较好的语音检出效果,它克服了传统语音端点检测以短时能量、基频、过零率等作为检测特征时,需要动态调整门限且在低信噪比情况下鲁棒性较差的缺点。
其次探讨了如何建立一个描述特定地方口音发音特点的音节发音变异字典,进行特定地方口音自适应,以及如何同重估声学模型参数的MLLR自适应方法相结合从而进一步提高系统的性能。本章采用分析与统计相结合的方法,研究汉语口语中的由于口音以及口语化带来的发音变异现象,以提高语音识别系统的鲁榜性,实验也表明在中小词汇量的语音识别系统中,音节发音变异字典能够提高语音识别的鲁棒性。
再次分析了影响统计语言模型性能的各种因素、常用的平滑方法和评价语言模型性能方法,建立了基于统计语言模型的音字转换平台,对语言模型中的多音字处理进行了分析和处理。嵌入式系统中的语音识别一般为领域相关的识别系统,很难收集到足够的训练语料,我们提出了采用规则和词类的方法来扩展词间的连接,在有限的训练语料情况下语言模型能够覆盖更多的语言现象,以提高语音识别系统的性能。
最后:在嵌入式PDA平台下,建立了一个语音翻译平台,在识别方面探讨了嵌入式系统下语音识别系统的具体实现问题,我们从定点特征的实时提取,声学模型的建立和压缩,高斯函数概率计算等方面进行了研究,在PDA系统下实现了一个完整的识别系统。在翻译方面采用关键词及其依赖关系查找实例的方法,以确保在有些识别错误而关键词正确的情况下也能得到正确的翻译,以此提高语音翻译机的性能。