基于强健语音识别的普通话发音评估——研究与应用

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:xxuhhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的语音识别技术对环境条件依赖较强,当测试条件与训练环境不一致时,识别器性能不可避免地急剧下降。这大大制约了语音识别的实际应用,同样也是基于语音识别的自动发音评估系统在实际应用中的一大瓶颈。条件所限,普通话水平测试的录音环境比较一般,各种加性背景噪声和录音设备的卷积噪声严重影响自动评估结果的准确性。为解决上述问题,本文借助强健语音识别的研究成果改善普通话发音评估系统的性能,将功率归正倒谱系数(PNCC)引入普通话发音评估,提高了系统性能。   本文主要工作如下:   1、研究基于特征的各类强健语音识别方法的性能。本文用PocketSphinx识别器基于TIMIT语料库搭建测试平台,比较了各种基于特征参数强健算法的性能,其中包括特征参数归正化算法中的CMN和MVN,直方图均衡化HEQ算法,以及特征补偿算法中的矢量泰勒级数(VTS)算法。其中,VTS算法的鲁棒性最强,但其计算量过大,很难应用到实时的评估系统中。   2、介绍并测试了新的鲁棒性特征提取算法一功率归正倒谱系数PNCC。它同MFCC和PLP一样也是一种基于人耳听觉特性的特征。PNCC的三项创新设计使该特征具有很强的鲁棒性。本文的测试实验表明其鲁棒性优于MFCC、PLP以及前面提到的基于MFCC的各种特征强健算法,而PNCC计算复杂度仅略高于MFCC,可以应用于实时的自动发音评估系统中。   3、将PNCC特征引入自动发音评估。本文使用普通话测试实录语料,在HTK平台上搭建了基于混淆网络后验概率的普通话自动发音评估系统。将基频信息与语音频谱信息分别进行声学建模,各自在汉语语音识别的基础上评分,采用“并联”方式将两种分数结合为最后的评估分数。本文首次将特征PNCC引入到自动发音评估系统。测试实验表明:相比MFCC和PLP,PNCC普通话自动发音评估系统性能提高显著。
其他文献
本文完成了一种宽波束、宽带宽的卫星天线的并行演化自动设计。该卫星天线设计要求是收发共用并且收发频率间隔相隔较宽,对增益的要求较高,并且为右旋圆极化。演化算法是进行
当前在目标监控领域,在前端图像采集系统获得图像序列之后,如何利用连续的图像帧获取所监测区域中运动目标是一类重点问题。而在低信噪比的环境下检测并跟踪弱小的运动目标是一
星载合成孔径雷达(Synthetic Aperture Radar,SAR)高分辨率、多极化、多波段以及多模式的发展需求使得SAR原始数据量迅猛增加,如何在满足应用需求的前提下选择尽量大的原始数据
视频目标跟踪是计算机视觉领域的核心问题,在民用和军事上都具有广泛地应用,如智能监控、人机交互、机器人导航、医学诊断以及精确制导武器等,近十几年随着信息技术的快速发
小麦条锈病是由小麦条锈菌引起的世界性重要的低温型病害,是限制小麦生产的重要因素之一。中国是世界上最大的小麦条锈病流行区,是我国黄淮及长江流域小麦的主要病害。小麦条锈
计算机视觉技术[1]从信息处理的层次研究视觉信息的认知过程。通过视觉感知理论程序化,使计算机对动态目标(车辆、行人、飞行器等)进行实时准确的识别与跟踪,是计算机视觉研究
目的:近年来,大量研究表明间歇性低压低氧(intermittent hypobaric hypoxia, IHH)处理具有明显的心脏保护作用,并越来越受到人们的重视和关注,已成为临床医学、高原医学和运动
目的:研究低氧及低氧复合运动情况下大鼠血清乳酸脱氢酶、肌酸肌酶、超氧化物歧化酶活性、丙二醛含量的变化;以及红细胞膜Na-K-ATP酶,Ca-Mg-ATP酶活性、心肌超微结构以及乳头肌
文章主要介绍了单县大棚西瓜高产栽培技术,目的在于提高种植户的管理技术水平.
声纳是利用水下声波判断海洋中物体的存在位置和类型的方法与设备。随着人类对海洋的认识逐渐深化,海洋因其经济上的巨大潜力和战略上的重要地位,越来越被人们所重视。近年来由