论文部分内容阅读
语音识别是模式识别领域的一个重要的研究课题,它的发展将会对未来的人机交互界面带来极大的影响。而在语音识别的研究中,大词汇量、非特定人、连续语音识别是最困难,最具有挑战性的一个课题。目前虽然已有许多大词汇量连续语音识别系统问世,但是其性能还远远达不到大规模应用的要求,对于它的进一步研究具有重要的实际意义。 语言模型是描述自然语言内在规律的数学模型。随着语料库语言学的崛起,基于语料库的统计语言模型逐渐取代了传统的人工编制的语言学文法,被广泛地应用于自然语言处理的各个应用领域。 本文研究的目的是建立基于词上下文的汉语统计语言模型。首先讨论了统计语言模型的构造原理、评价标准和存在的一些问题。建立了一个具有一定规模、分类齐全的语料库,并完成了语料库的预处理、分词方案。采用CMU_Cam_Toolkit工具包完成语言模型的训练和评价工作。此外,进行了大量的实验,从预处理方案、训练语料的规模、数据平滑方法、语料的搭配情况,词表文件的选择,工具包使用参数的设置等方面对语言模型进行了优化和改进,使语音识别系统识别率有了显著提高。 本文针对模型文件中的词表文件建立了一个音字转换系统,这个模块用于将语音识别系统中的声学模型和语言模型连接起来,具有十分重要的作用。解决了多音字处理问题,提出将多音字分的读音分为低频音和高频音的处理方法,解决了多音字词语注音时需要人工干预的问题,并且提出了一种有效的数据结构方法,大大提高了汉字拼音搜索匹配的速度。这个模块也可用于声学模型的拼接训练,不需要在识别内容改变的情况下重新进行整词训练,节省了大量的人力物力。 本文系统的介绍了大词汇量连续语音识别系统的整体模型和各个组成部分,并阐明一个可靠的语言模型对于提高连续语音识别系统的识别正确率,起着至关重要的作用。相对于已发展得较为成熟的声学模型来说,语言模型还有极大的发展空间。