论文部分内容阅读
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。在语音识别领域,维吾尔语是研究较少的语言,为此研究维吾尔语语音识别的第一步就是建立语音语料库。用于录制语音数据的文本来自新疆日报、维吾尔文网站、维吾尔文小说等多种媒体,选择的领域广,基本上覆盖了维吾尔语的所有语言现象。本文围绕维吾尔语大词汇量连续语音识别研究中的关键技术,重点阐述适用于大词汇量连续语音识别的维吾尔语语音语料库的设计思路和建立过程。