基于区分性原理的汉语语音识别中声调问题的研究

来源 :上海交通大学 | 被引量 : 9次 | 上传用户:jack0418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语是一种带调语言,声调在汉语语音中具有非常重要的意义。相同的声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的方块字。特别是当语言模型上下文缺失的情况下,声调在汉语普通话中承担着重要的构字辨义的作用。因此,将声调信息应用于汉语普通话的语音识别系统当中,将会有效地提高识别系统的性能。近年来,基于区分性原理的机器学习方法已成为模式识别特别是自动语音识别研究领域的热门研究方向之一。利用区分性原理在模型训练以及特征优化方面提出的一些方法,在小规模的分类任务以及大词汇连续语音识别系统中都显示了优越的性能。本文以汉语普通话大词汇连续语音识别系统为应用背景,旨在根据汉语声调发音的特点,从区分性原理的角度来讨论汉语语音的声调建模以及声学建模中的声调信息利用问题。回顾了语音识别技术的发展历史,介绍了声调在汉语语音识别中的作用,系统性描述了区分性训练准则以及应用比较成功的区分性模型与方法,并由此提出了不同模型下改进声调识别性能以及利用声调信息改进声学建模性能的区分性方法,为汉语语音识别中声调问题的解决提供了新的研究思路。这些方法可概括如下:首先从区分性训练的角度研究了基于隐马尔可夫模型的声调建模方法。为了提高汉语声调识别率,从模型空间中利用区分性训练的参数更新方法对模型参数进行重估。在汉语普通话中,由于协同发音的存在,连续语音的声调识别较孤立语音声调识别复杂。声调协同发音体现为对当前音节的声调感知高度依赖于上下文声调。基于上述原理,在特征空间的区分性训练方面,提出区分性声调特征提取方法。该方法根据区分性线性特征补偿的思想,根据区分性目标函数训练得到的线性变换,将上下文基音频率进行映射并补偿至当前音节基音频率特征。实验表明区分性声调特征提取显著提高了声调识别率,声调特征提取基础上的模型参数联合训练进一步提高了声调识别的性能。并从识别率以及特征变换参数的角度进行分析,说明特征提取方法与传统声调特征归一化的本质不同。条件随机场(conditional random fields,CRFs)是近年来在自然语言处理领域使用的成功的数学模型。论文采用条件随机场的一种扩展-隐条件随机场对汉语语音声调进行显式建模,提出一种对传统动态特征的扩展-广义动态特征来更好地捕捉基音频率曲线的动态变化。声调识别实验表明采用相同的特征和结构,隐条件随机场较最大似然训练的隐马尔可夫模型声调识别率有显著提高,加入广义动态特征之后声调识别率有一致性改进。隐条件随机场区别于HMM的重要特性在于无须对特征采用统一的利用方式,这使得该模型非常适合于处理汉语语音中基音频率在浊音段连续、清音段不连续的声学现象。提出了隐条件随机场对断续F0进行直接建模的隐式声调建模方法,带调音节分类实验表明在隐条件随机场下对断续基音频率序列的直接建模较使用清音段平滑F0特征的识别率有明显的提高,该实验结果对利用隐条件随机场在大词汇连续语音识别系统下,声学建模中对断续基音频率序列的直接建模提供初步的实验依据。讨论了大间隔(large margin)高斯混合模型的声调建模方法,根据大间隔区分性训练准则对模型参数进行区分性训练。对于参数的更新,针对基于Quasi-Newton梯度下降方法收敛速度慢的缺点,提出一种扩展Baum Welch(extended Baum Welch,EBW)形式的大间隔高斯混合模型的参数更新方法,该方法借助弱辅助函数的原理对高斯参数进行优化,实验表明该方法与基于Quasi-Newton的梯度方法相比只需要几次迭代就可以达到相同甚至更高的识别结果。另一方面,对于基于段特征的高斯混合模型,选取什么样的特征能够达到更好的识别率往往需要反复试凑得到最优的识别结果。本文利用线性判别分析方法来对声调特征进行降维,通过线性判别分析得到更加适合于声调区分的段特征,声调识别实验上表明在维数缩减特征基础上的高斯混合声调模型,较传统的重叠双音调高斯混合模型在声调识别性能方面有明显的提高,这表明线性判别分析获得的特征要优于人工选取的超音段声调特征。最后讨论了一种区分性模型权重的训练方法,将显式训练的声调模型加入大词汇量连续语音识别系统中来提高汉语连续语音识别率。该方法根据最小音子错误(minimumphone error,MPE)准则,区分性地训练模型相关的概率权重。利用这些权重对传统基于传统谱特征的HMM模型概率以及声调模型概率进行加权,通过调整模型之间的作用程度提高系统识别率。推导了利用扩展Baum-Welch算法的权重更新公式。根据汉语上下文相关声学建模的特点,由此提出了带调音节相关、韵母模型相关、模型组合相关和整词相关的模型权重策略。对不同模型权重组合策略进行了评估。在实验中,由于训练语料的有限性,各种权重策略随着可训练参数增多,容易受到过训练的影响。具体表现在:对训练数据目标函数增大,但是测试数据识别率反而下降。提出利用权重之间的平滑的方法来克服权重训练过拟合的问题。分别通过大词汇连续语音的带调音节输出和汉字输出两种识别任务来验证区分性模型权重训练的性能。实验结果表明在两种识别任务上,使用区分性的模型权重较使用全局模型权重显著地降低了误识率,这表明了区分性模型权重对提高声调模型集成性能的有效性。
其他文献
超声诊断中易被疏忽的误区徐智章近年来超声诊断设备性能不断发展,检查内容及项目亦陆续增加,但部分超声诊断工作者对其理论与技术一知半解,甚至误解,而某些审稿人员专业理论素质
本文研究内容为无线传感器网络的分布式无测距依赖定位算法。无线传感器网络由大量具有感知、计算和无线通信能力的廉价传感器节点以自组织方式构成。网络布线多采用空投抛撒
近20年来,遥感卫星在中国得到快速发展,但每颗卫星的效能如何,缺少科学的评价。构建科学的指标体系是进行效能评估的基本前提。针对合理建立能力指标体系、定量评估遥感卫星
[摘 要] 随着中国获得2008年奥运会举办权,中国体育经济面临新的发展机遇和挑战。中国体育经济从无到有,目前己经形成一定的产业规模和市场规模。然而,究竟在当前中国宏观经济形势下,体育经济该如何定位,如何发展,以及管理制度如何改革目前存在许多争论和模糊之处。以往宏观部门对中国体育事业关注的焦点还很少涉及体育的经济影响。因此。  [关键词] 体育经济 市场经济    我国体育产业虽然起步较晚,但发展
面对新农村建设的新形势,如何提高我国农业国际竞争力,是当前和今后一个时期农业、农村工作一件全局性、战略性大事。多年的实践证明,大力推进农业产业化经营,把龙头企业做大
我院自开展三级妇幼保健院创建工作以来,在临床护理实践中高度重视健康教育活动,采取了一系列行之有效的措施,取得了一定的成绩。在今年全省39家三级医疗机构进行的患者满意度调
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨阴道分娩时软产道裂伤的相关因素。方法:以本院2006年10月-2006年12月,3个月内就诊阴道分娩的产妇为研究对象,对产妇软产道裂伤的发生情况及相关因素进行分析。结果:阴
随着信息技术的高速发展,信息网络已广泛的应用于政治、军事、科研、商业、金融等领域,并成为社会进步和发展的重要标志之一。信息网络在给人们的生活带来巨大便利的同时,也
构筑安全电子商务信息环境是网络时代发展到一定阶段的“瓶颈”性课题,本文侧重研究了电子商务环境下的信息安全技术,数字认证技术以及身份鉴别和数字证书的安全性等核心问题。