论文部分内容阅读
本文研究方言口音普通话语音自动切分算法,主要服务于方言口音普通话语音库建设。近年来,随着语音学研究转向口音化、口语化的自然语音,方言普通话语音库已经成为国内语音库建设的一个热点。音段切分与标注是语音库建设中最费时费力的环节,通过提高语音自动切分算法准确率,可以有效地提高方言普通话语音库的建设效率。 本文对当前语音自动切分算法进行了比较系统的研究,在此基础上,作者做了以下工作: 1.提出语音自动切分中的方言口音建模方案 方言口音建模是本研究的关键,其作用是利用方言口音语音数据调整系统参数或结构,使其体现方言口音特征。本文全面比较了方言口音建模中的字典自适应技术和声学模型自适应技术的各种实现方法,提出采用数据驱动的多发音字典构建技术、以及surface-form标注监督下MAP声学模型自适应的方言口音建模方案。 2.提出方言口音普通话语音自动切分框架 方言口音语音自动切分是一个较新的研究课题,当前尚无研究人员提出有效的算法解决它。本文提出一个方言口音普通话语音自动切分框架,在通用语音自动切分系统的基础上,通过在标注转换模块引入多发音字典,在Viterbi自动对齐模块引入基于多语音学标注序列的自动对齐算法,以及在模型训练过程中引入声学模型自适应技术,将标准普通话语音切分系统改造成方言普通话语音自动切分系统,有效提高了切分准确率。同时,本文提出渐进式语音库音段切分策略。可以有效提高语音语音库建设效率。 3.上海方言普通话语音自动切分实验 本文以863上海方言普通话语音库为研究对象,通过一系列实验验证了上述方言口音建模方案以及方言口音普通话语音自动切分框架的可行性。实验结果显示,采用surface-form标注监督下的MAP声学模型自适应与多发音字典相结合的方言口音建模技术时,可以将边界偏差小于20ms的切分正确率提高3.9%、平均边界偏差减小8.1ms,当进一步采用带音段时间信息的surface-form标注监督下的MAP自适应时,两个指标改善幅度分别是5.1%与9.3ms。