普通话语音识别中的基本音素分析

来源 :语文建设·下半月 | 被引量 : 0次 | 上传用户:weiwen1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文对普通话当中的基本音素进行了分析,并将元音的可变性问题单独提出来做了研究,并根据语音识别中容易产生混淆的音素的声学特征,提出了新的能准确描述音素频谱的特征,使得语音识别的效果得到很大提升。
  关键字:普通话 语音识别 基本音素
  一、普通话基本音素分析
  1.音素的分类。普通话所有的发音,都可以将声母和韵母相拼,再加入声调而成。1958年批准的《汉语拼音方案》将汉语拼音分成21个声母与35个韵母,以及五种音调。但因56个声、韵母中,许多都是由基本音素所构成的复合音,计算机要识别单音特征就显得有一定的难度,为了降低复杂性,先要对普通话的基本音素进行分析和筛选,给从基于音素的语音识别做好铺垫。
  2.音素分析。如果从发音特征来考察,普通话的音素包括元音和辅音两大类。元音在发音的过程当中起到主导作用,辅音则辅助发音,汉语拼音的56个声、韵母发音中,有10个汉语元音和22个汉语辅音。所以掌握好了这l0个汉语元音和22个辅音,就能将所有的汉语拼音的发音拼出。元音和辅音分别如下:
  元音:a,o,e,i,u,n,仑,i(知),i(资), er;
  辅音:b,P,m,f,d,t,n,l,g,k,h,j,q,x, zh,ch,sh,r,z,c,s,ng
  需要说明一下的是:元音i(知)为zh、ch、sh发音的尾部部分;i(资)为z、c、s发音的尾部部分。在构成汉语拼音的时候,元音i(知)仅在zhi,chi,shi當中出现,它的作用只是为了延长原有发音的尾音。也就是说,i(知)的发音, zh,ch,sh的发音当中已经包含了。所以,在分析基本因素时,只需做好zh,ch,sh的发音,稍微将其尾部延长便可得到zhi,chi,shi的发音。同理,元音i(资)只使用在汉语拼音zi,ci,si中,而其也包含于辅音z ,s的发音中。另外,因为er的发音可由e和r的发音相拼而成,所以它可不作为一个独立音素。根据上述分析,汉语元音音素的数目可由10个减为7个。
  二、元音音素的可变性分析
  1.研究音素变化的重要性。音节是普通话语音体系当中最基本的结构单位,而音节又是由音素按照一定的方式组成的,所以普通话里面最小的语音结构单位就是音素。可以这样说,发音器官所产生的每次细微的变化,均可以发出不同的音素。因而,分析和探究这些音素在音节当中产生的相互间的变化和影响,对于准确把握普通话的音节或字音,起着非常重要的作用。
  2.音素可变性分析。学习普通话时,准确地发出单元音韵母是学习的基础,但是,这种韵母的发音特点是口形始终保持不变,舌位也不移动,但单元音韵母(元音音素)的变化,就是它们一旦进入复韵母和鼻韵母,或是和声母拼合时,所产生的细微变化会被忽视。对于北方人而言,这种可变性在自然语言环境当中耳濡目染就能学会;但对南方人而言,这种变化是一大难点,所以,准确把握元音音素在音节中的可变性,对于语音识别非常重要。
  3.以原音i为例的分析。元音i是一个前元音兼高元音,当i与e组合成ie音节时,i和e彼此影响的结果就是舌位会往两者之间的中部稍有移动,因而元音i的实际舌位就已从高降到了次高;而当i与a组成ia时,因a是一个央元音兼低元音,与i之间的差异较大,融合时的影响也就更大,导致i的舌位从高降到了半高;当i与ou组成iou音节时,因o、u均为后元音,且o为半高元音,故i与ou后,其舌位不仅由前往后稍移,并且从高变成了次高并呈半高的趋向,因为只有这样才能与半高元音o顺畅地进行衔接,于是iou音节既有由前往后的舌位趋向,又表现出高(i)——半高(o)——高(u)的发音曲线;当i与n结合成in时,因为舌尖中音n的舌位也靠前偏高,二者的发音趋向一致,此时只要i的舌尖再往前伸,抵住上齿龈,n的韵尾就形成了,因此鼻辅音n几乎不会影响到元音i;当i与ng组合时,因为鼻辅音ng的舌位靠后并偏低,会对i元音造成一定的影响,在发音时,i元音的舌位会形成由高往低、由前往后的趋向,因此前元音兼高元音i在发音之初就已变为次前元音兼次高元音了;i与ong的组合中, o和ng舌位都靠后,并且o是半高元音,ng舌位偏低,受两者的共同影响,i的舌位明显后缩,并且表现出由高往低的趋向,这使其变成了次前元音兼次高元音。
  三、对y、w的音素性质分析
  y、w是两个较为特殊的因素,兼具元音和辅音的一些特点,下面将它们单独提出来进行因素性质的分析。
  1.从发音部位与方法上进行分析。从语音的发声部位和方法来看,发元音时,气流经声门带动声带的振动,通过咽喉、口腔、鼻腔时,没有阻碍;辅音发声时,呼出的气流定会在经过某个发声器官时受阻碍。发元音的时候,除了声带,其余发音器官均保持紧张,而发辅音时,只有形成阻碍的器官才紧张。例如:辅音[k]在发音时,舌根和软腭会紧张。并且,发元音时呼出的气流没有发辅音时急促。由此可见,y、w的发音既接近元音,但又具有辅音的发声特点。这里将y[j]、w[w]两个音素看做辅音,因为“发声时气流有阻碍”是辅音的重要特征,就算它们发音部位接近元音,但满足了这一条件,就该被看做是辅音。
  2.从声带振动特点上进行分析。语音是由声带振动引起空气振动产生音波而形成的,可看做是一种物理现象,所以语音又有乐音和噪音之分。从y、w的发声来看,它们发音时只是引起声带稍微的振动,发出的声音不如元音清晰,从这个角度看,我们可以把它们看做是乐音性的噪音。但在元音的分类中,元音被看做是非常纯粹的乐音,所以,y、w也只能被看做辅音了。
  3.从音节结构上进行分析。在原来的汉语拼音方案当中,[w]、[j]被认为是韵头,是[u]、[j]的改写,所以将其看做元音,但这样分类显然混淆了概念。因为从音节结构上来看,非常明显[wA]与[jA]是音节,而[uA]、[iA]是韵母,如果进行改换,是非常不合理的。再从音位的角度来看,[jA]当中的[j]和[iA]当中的[i],[wA]当中的[w]和[uA]当中的[u]是不同的音位,因为[j]和[A]、[w]和[A]可以组成以[j]、[w]做为声母的音节,它们与[i]与[a]、[u]与[a]组成的音节是不同的,只是作为音节的一个部分——韵母。这样来看, [j]、[w]被看做是具有区别意义功能的语音单位,即音位是合理的,此时,y、w就该被归到辅音当中去。
  从以上情况的分析来看,y、w应该被看做是辅音而作为声母来使用。
  四、结语
  汉语普通话当中易混淆的音素很多,要想让语音识别更精准,就要对普通话的音素进行分析和研究,并充分了解音素的可变性,并进行正确的分类,只有在此基础之上,才能提出更先进的识别技术。语
  参考文献
  [1]王红雨,廖逢钗,卢昌荆等.一种基于语音识别的普通话语音失误判别方法[J].三明学院学报,2007(4):452-455.
  [2]徐秉铮,邱伟.汉语普通话声母的分类与识别[C].第五届全国语音图象通讯信号处理学术会议论文集.
  [3]黄中伟,杨磊,徐明等.普通话语音识别中的基本音素分析[J].深圳大学学报(理工版),2006(4):356-357.
  [4]李晨冲.汉语普通话易混淆音素的声学区分[D].西安电子科技大学,2009.
  [5]郑泽宏.普通话音节中元音音素的可变性探析[J].职大学报,2011(2):103-105、122.
其他文献
采用十八胺与乙二醇二缩水甘油醚为原料,合成两端为环氧基、中间氮原子上接有长疏水侧链的加成物,再由自制亚胺上剩余的仲胺对加成物进行封端,制备出含长疏水侧链的潜伏性环氧固
我国独立的口腔材料学学科教育已开展多年了,但象其他课程教学一样,以课本为中心,以教师为中心,目前已难以适应以学生为中心的教改趋势.加之材料学的师资队伍较弱,缺乏经验,
细柄阿丁枫(Altingia gralilipes)又名细柄蕈树,属金缕梅科蕈科属常绿乔木,为优良乡土速生树种,是我国中亚热带地带性植被的建群种之一.在福建、浙江、广东等省多零星分布于
在学生学习的过程中,犯错误是非常常见的事情。尤其是在个人学习习惯和学习体系还没有完全成型的小学时期,即使是小学的高年段,学生也会犯各种各样的错误。比起其他的学科,数
近年来,信息技术的发展已经广泛融入到了小学生的生活和学习中,在为小学数学教学提供有利条件的同时,也为教师创新教学模式带来巨大的挑战。如何在数学教学中充分发挥信息技
黄瓜作秋季露地栽培,由于投入小,经济效益高,在和县种植面积逐年扩大。2005年全县面积发展到2400hm^2平均每公顷经济效益达3.96万元。
数学建模思想是《课程标准(2011年版)》中所说的“数学的基本思想”中的三大数学思想之一,就是指用数学的语言描述实际现象。通过设计数学方法,最终解决实际问题的整个过程。
小学数学是小学教育的重要组成部分,对创新学生的思维,培养学生的逻辑分析能力都具有重要的作用。小学课堂教学是提高学生的数学学习兴趣,以及加强对数学知识的理解与掌握的
中国现代语文较之于传统语文最明显的区别就是语言形态上的白话化,鲁迅的"写话"既体现着现代语文的实际,又包含着丰富的语文思想:一是用"话"来写,二是写出心里"话",三是写好"
阅读教学在帮助学生理解文本内容的基础上,更要学习作者如何运用语言文字表达,并进行有效的迁移运用。为了实现更有效的运用,笔者在优化文本阅读的基础上尝试了仿写训练,收到了一