论文部分内容阅读
研究背景据2006年第二次全国残疾人抽样调查显示,我国听力残疾人已达2780万,并且还在不断增加,其中七岁以下聋儿可达80万,每年还将新生聋儿3万余名。老年性耳聋有949万,随着人口寿命增长和老龄化,老年性耳聋的人数不断增加。听力障碍严重影响着这些人的社会交往和个人生活质量,对于感音神经性聋,相当多的治疗方法效果不佳,药物治疗无效者只能佩戴助听器或行人工耳蜗植入术。汉语普通话是一种声调语言,共四种声调,分别是一声、二声、三声、四声。一个单字为一个音节,每个音节有四个声调变化。汉语声调又称字调或音节声调,具有构词辨义的功能,主要取决于音高(基音频率),随着不同的声调音长和音强也会跟着变化。汉语等声调语言中,音节的声调非常重要。对于元音和辅音相同的音节,声调不同,其意思则完全不同。以往研究表明声调识别的声学感知信息广泛分布于频域和时域,依据二者信息的相对可用性和重要性,时域和频域间可以相互补偿。声调识别最重要的信息之一是声音频率的变化,声调识别实质就是声音频率的辨别,在声学上表现为基频和其谐波成分的改变。基频F0是声调识别的主要特征,将汉语言语信号通过300Hz的低通滤波,以直接保留信号中的基频(F0)信息,或者从谐波中几乎可以获得完美的声调识别。虽然基频F0是声调识别的主要特征,但不是唯一信息,其他能够传递声调模型的时域信息也有助于声调识别,包括振幅包络,周期性波动、精细结构及元音持续时间等。当部分和全部去除F0和其谐波结构时,元音持续时间和振幅包络有效的维持了声调信息,但保留基频信息时,元音持续时间和振幅轮廓对汉语声调感知的影响较小。振幅包络与汉语音节的F0轮廓之间有相关性,增强语言信号的振幅包络使其与语言信号的基频轮廓更好地匹配能够大大改善人工耳蜗使用者的声调识别;且增加每一频道的周期性波动的调制深度对声调识别几乎没有影响,表明振幅包络信息比周期性波动信息对声调识别的影响更显著。时域包络信息主要支持言语识别,而时域精细结构对声调识别是主要的,必需的,在安静条件下,听力正常人仅应用时域的精细结构时,声调识别几乎接近完美,但仅有时域的包络信息时,则声调识别正确率相对较低为70-80%;在噪声条件下,精细结构比包络信息起着更重要的作用,包络信息在语音音调感知中对噪声更敏感。因此将人工耳蜗刺激中提供更多的精细结构信息可能会提高患者声调识别的成绩。有研究指出安静条件下,频道数小但时域刺激频率较高时,或者频道数多但时域刺激频率较低时,研究对象可以获得相似的声调识别结果;在噪声条件下周期性信息对噪声更敏感,而频域信息能耐受噪声,对声调识别起主要作用。所以推测汉语声调识别的时域和频域信息之间可以相互弥补,取长补短。多通道人工耳蜗植入已成为目前治疗重度、极重度感音神经性耳聋的重要手段。目前国内临床使用的仍主要是国外多通道人工耳蜗产品,有人提出因其言语编码方案是基于西方语言特点而设计,并未考虑到汉语语音特点,现有言语编码方案是否适用于汉语,需对汉语特点尤其声调构成进行分析。为此我们要对汉语普通话声调进行时域和频域分析,探讨汉语声调识别的主要因素,为提高人工耳蜗使用者的汉语声调识别提供实验依据。目的对汉语普通话单音节词四声的音素从时域和频域进行分析,探讨影响汉语语音识别的因素,并通过数字滤波方法对汉语普通话单音节词四声的语言频率范围进行分析。方法1材料:本研究所用语音材料取自《聋儿听觉言语康复评估方法指导手册》。此手册于1991年由吉林省教育音像出版社印刷出版。其中聋儿听觉功能评估部分由女播音员普通话发声,读录于光盘上。我们选用同音单音节词声调识别部分,共有10个音节,四种声调,合计40个词。2实验步骤:试验主要分三部分进行:(1)时域分析使用由美国Syntrillium软件公司开发的Cool Edit Pro 2.0从VCD视频文件中提取音频并转换为.wav文件存盘,音频采样率为44100Hz,采样精度为16bit,立体声道。用Cool Edit Pro 2.0软件对每一单音节词的四种声调音频文件进行时域波形(横坐标为时间,纵坐标为振幅)显示并提取波形的时域包络线,测定每一单音节词的音长。研究不同声调是否具有其独特的时域波形、包络线及音长特征,探讨时域信息对汉语单音节词声调识别的影响。(2)频域分析①幅值谱分析采用Cool Edit Pro 2.0软件对汉语单音节词进行音频文件采集,用其快速傅立叶转换(FFT)行单音节词的幅值谱分析。②时间频率分析将采集的音频数据文件进行预处理,用MatLab 7.0软件将预处理好的数据段分别作时间频率分析,用美国SigmaPlot 9.0作时间频率分析的三维立体图。研究基频和共振峰频率(频域)信息对汉语单音节词声调识别的影响。(3)数字滤波分析对上述单音节词音频文件采集数据采用有限冲激响应(Finite Impulse Respones,FIR)数字滤波器分别进行0.5 kHz的高通、0.5kHz~4.0 kHz的带通、4.0 kHz的低通、2.0 kHz的低通和0.5kHz~2.0kHz的带通数字滤波。对各个滤波前后语音信号经过6位听力正常的青年大学生共同聆听分辨词意。将滤波后的频域信号转换成时域信号,进行时域波形振幅测量,观测不同带通的数字滤波对时域信号振幅的影响。对前两部分实验中数据,进行统计学分析(所有数据结果用均数±标准差((?)±s),采用SPSS13.0软件包进行数据处理,用相应方法进行统计分析)和图形制作(利用Cool Edit Pro 2.0、MatLab 7.0软件、SigmaPlot 9.0进行图形分析)。结果1.同一单音节词声调不同,其时域波形及包络线就不同;不同单音节词无论声母韵母是否相同,只要声调相同其时域包络线就具有高度相似性。同一单音节词声调不同,其音长各不相同,且具有显著性差异(P<0.05)。2.汉语单音节词主要由F0、F1、F2和F3组成。其中F0是基频,F1和F2是F0的二倍频和三倍频,F3是语音的高频成分。各组基频均数间具有统计学意义,且两两比较均具有显著性差异(P<0.01)。各单音节词四声的时间频率三维图形特征各不相同。“一声”各频率及其强度基本保持不变,呈水平型;“二声”各频率随时间变化逐渐偏向高频,呈上升型,强度改变不明显;“三声”各频率首先偏向低频保持一段时间后逐步偏向高频方向,呈V型,强度改变呈凹状;“四声”各频率及其强度则呈下降型。3.各种带通的数字滤波结果显示:滤除500Hz以下的低频成分或滤除4000Hz以上的高频成分均可以引起波幅的降低或个别语音语意的变化,说明汉语单音节词的言语频率覆盖范围超过500~4000Hz的范围。结论1.时域信息对汉语语音单音节词四声辨别起主要作用,可以通过增加人工耳蜗植入系统时域采样率和时域刺激速率以提供更好的时间信息,从而获取汉语声调更细致的时域波形和包络信息。2.频率信息的变化体现了汉语声调的变化,其中主要是基频的变化,但共振峰频率在一定程度上也提供了声调信息。频域信息对汉语声调识别有重要作用,时间频率分析反映了汉语单音节词四声随时间发生的强度和频率成分变化特征。3.汉语语音单音节词经过上述数字滤波器滤波后,其时域波形振幅发生不同程度的降低,甚至有的音素发生语音的变化,说明汉语单音节词四声的频率范围已超过目前制定的言语频率500~4000Hz范围,是否有必要重新修订汉语的言语频率范围有待进一步探讨。