汉语普通话单音节词声调识别分析

被引量 : 6次 | 上传用户:ln86119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景据2006年第二次全国残疾人抽样调查显示,我国听力残疾人已达2780万,并且还在不断增加,其中七岁以下聋儿可达80万,每年还将新生聋儿3万余名。老年性耳聋有949万,随着人口寿命增长和老龄化,老年性耳聋的人数不断增加。听力障碍严重影响着这些人的社会交往和个人生活质量,对于感音神经性聋,相当多的治疗方法效果不佳,药物治疗无效者只能佩戴助听器或行人工耳蜗植入术。汉语普通话是一种声调语言,共四种声调,分别是一声、二声、三声、四声。一个单字为一个音节,每个音节有四个声调变化。汉语声调又称字调或音节声调,具有构词辨义的功能,主要取决于音高(基音频率),随着不同的声调音长和音强也会跟着变化。汉语等声调语言中,音节的声调非常重要。对于元音和辅音相同的音节,声调不同,其意思则完全不同。以往研究表明声调识别的声学感知信息广泛分布于频域和时域,依据二者信息的相对可用性和重要性,时域和频域间可以相互补偿。声调识别最重要的信息之一是声音频率的变化,声调识别实质就是声音频率的辨别,在声学上表现为基频和其谐波成分的改变。基频F0是声调识别的主要特征,将汉语言语信号通过300Hz的低通滤波,以直接保留信号中的基频(F0)信息,或者从谐波中几乎可以获得完美的声调识别。虽然基频F0是声调识别的主要特征,但不是唯一信息,其他能够传递声调模型的时域信息也有助于声调识别,包括振幅包络,周期性波动、精细结构及元音持续时间等。当部分和全部去除F0和其谐波结构时,元音持续时间和振幅包络有效的维持了声调信息,但保留基频信息时,元音持续时间和振幅轮廓对汉语声调感知的影响较小。振幅包络与汉语音节的F0轮廓之间有相关性,增强语言信号的振幅包络使其与语言信号的基频轮廓更好地匹配能够大大改善人工耳蜗使用者的声调识别;且增加每一频道的周期性波动的调制深度对声调识别几乎没有影响,表明振幅包络信息比周期性波动信息对声调识别的影响更显著。时域包络信息主要支持言语识别,而时域精细结构对声调识别是主要的,必需的,在安静条件下,听力正常人仅应用时域的精细结构时,声调识别几乎接近完美,但仅有时域的包络信息时,则声调识别正确率相对较低为70-80%;在噪声条件下,精细结构比包络信息起着更重要的作用,包络信息在语音音调感知中对噪声更敏感。因此将人工耳蜗刺激中提供更多的精细结构信息可能会提高患者声调识别的成绩。有研究指出安静条件下,频道数小但时域刺激频率较高时,或者频道数多但时域刺激频率较低时,研究对象可以获得相似的声调识别结果;在噪声条件下周期性信息对噪声更敏感,而频域信息能耐受噪声,对声调识别起主要作用。所以推测汉语声调识别的时域和频域信息之间可以相互弥补,取长补短。多通道人工耳蜗植入已成为目前治疗重度、极重度感音神经性耳聋的重要手段。目前国内临床使用的仍主要是国外多通道人工耳蜗产品,有人提出因其言语编码方案是基于西方语言特点而设计,并未考虑到汉语语音特点,现有言语编码方案是否适用于汉语,需对汉语特点尤其声调构成进行分析。为此我们要对汉语普通话声调进行时域和频域分析,探讨汉语声调识别的主要因素,为提高人工耳蜗使用者的汉语声调识别提供实验依据。目的对汉语普通话单音节词四声的音素从时域和频域进行分析,探讨影响汉语语音识别的因素,并通过数字滤波方法对汉语普通话单音节词四声的语言频率范围进行分析。方法1材料:本研究所用语音材料取自《聋儿听觉言语康复评估方法指导手册》。此手册于1991年由吉林省教育音像出版社印刷出版。其中聋儿听觉功能评估部分由女播音员普通话发声,读录于光盘上。我们选用同音单音节词声调识别部分,共有10个音节,四种声调,合计40个词。2实验步骤:试验主要分三部分进行:(1)时域分析使用由美国Syntrillium软件公司开发的Cool Edit Pro 2.0从VCD视频文件中提取音频并转换为.wav文件存盘,音频采样率为44100Hz,采样精度为16bit,立体声道。用Cool Edit Pro 2.0软件对每一单音节词的四种声调音频文件进行时域波形(横坐标为时间,纵坐标为振幅)显示并提取波形的时域包络线,测定每一单音节词的音长。研究不同声调是否具有其独特的时域波形、包络线及音长特征,探讨时域信息对汉语单音节词声调识别的影响。(2)频域分析①幅值谱分析采用Cool Edit Pro 2.0软件对汉语单音节词进行音频文件采集,用其快速傅立叶转换(FFT)行单音节词的幅值谱分析。②时间频率分析将采集的音频数据文件进行预处理,用MatLab 7.0软件将预处理好的数据段分别作时间频率分析,用美国SigmaPlot 9.0作时间频率分析的三维立体图。研究基频和共振峰频率(频域)信息对汉语单音节词声调识别的影响。(3)数字滤波分析对上述单音节词音频文件采集数据采用有限冲激响应(Finite Impulse Respones,FIR)数字滤波器分别进行0.5 kHz的高通、0.5kHz~4.0 kHz的带通、4.0 kHz的低通、2.0 kHz的低通和0.5kHz~2.0kHz的带通数字滤波。对各个滤波前后语音信号经过6位听力正常的青年大学生共同聆听分辨词意。将滤波后的频域信号转换成时域信号,进行时域波形振幅测量,观测不同带通的数字滤波对时域信号振幅的影响。对前两部分实验中数据,进行统计学分析(所有数据结果用均数±标准差((?)±s),采用SPSS13.0软件包进行数据处理,用相应方法进行统计分析)和图形制作(利用Cool Edit Pro 2.0、MatLab 7.0软件、SigmaPlot 9.0进行图形分析)。结果1.同一单音节词声调不同,其时域波形及包络线就不同;不同单音节词无论声母韵母是否相同,只要声调相同其时域包络线就具有高度相似性。同一单音节词声调不同,其音长各不相同,且具有显著性差异(P<0.05)。2.汉语单音节词主要由F0、F1、F2和F3组成。其中F0是基频,F1和F2是F0的二倍频和三倍频,F3是语音的高频成分。各组基频均数间具有统计学意义,且两两比较均具有显著性差异(P<0.01)。各单音节词四声的时间频率三维图形特征各不相同。“一声”各频率及其强度基本保持不变,呈水平型;“二声”各频率随时间变化逐渐偏向高频,呈上升型,强度改变不明显;“三声”各频率首先偏向低频保持一段时间后逐步偏向高频方向,呈V型,强度改变呈凹状;“四声”各频率及其强度则呈下降型。3.各种带通的数字滤波结果显示:滤除500Hz以下的低频成分或滤除4000Hz以上的高频成分均可以引起波幅的降低或个别语音语意的变化,说明汉语单音节词的言语频率覆盖范围超过500~4000Hz的范围。结论1.时域信息对汉语语音单音节词四声辨别起主要作用,可以通过增加人工耳蜗植入系统时域采样率和时域刺激速率以提供更好的时间信息,从而获取汉语声调更细致的时域波形和包络信息。2.频率信息的变化体现了汉语声调的变化,其中主要是基频的变化,但共振峰频率在一定程度上也提供了声调信息。频域信息对汉语声调识别有重要作用,时间频率分析反映了汉语单音节词四声随时间发生的强度和频率成分变化特征。3.汉语语音单音节词经过上述数字滤波器滤波后,其时域波形振幅发生不同程度的降低,甚至有的音素发生语音的变化,说明汉语单音节词四声的频率范围已超过目前制定的言语频率500~4000Hz范围,是否有必要重新修订汉语的言语频率范围有待进一步探讨。
其他文献
随着产业结构的调整和市场形势的变化,战略转型是很多企业都要面对的一项重要课题。从发展需要出发,结合企业实际,适时地进行正确的战略转型,是涉及企业最高层面的重大决策。
为了推动我国丰富的竹叶资源的综合开发利用,本文以竹叶提取物对酪氨酸酶的影响作为评价指标,筛选高活性的竹种。采用活性追踪,利用现代色谱和波谱学手段,分析具有抑制酪氨酸
目的探讨小剂量阿司匹林治疗妊娠期血液高凝的临床效果。方法选取2017年3月~2019年1月我院收治的72例妊娠期血液高凝患者作为研究对象,采用奇偶分组法分为对照组(36例)和观察
本文选择托里西南部地区作为研究区,利用ASTER数据和ALOS数据进行分析提取该区域的遥感异常信息。首先,将ASTER数据进行预处理,包括几何精校正和降噪处理;为消除周边地区地物
农业执法是我国实施依法治国方略的重要组成部分,对我国农业经济发展乃至整个国民经济的发展都具有举足轻重的意义。随着农业立法的发展,广东省惠州市农业执法逐步完善,但也
近期关于工业革命与大分流的文献主要强调几个方面:地理条件、人力资本、制度和国际贸易。但我们认为这些都不是最根本的原因,我们认为社会文化背景的差异是形成分流的最根本
音乐是情感的艺术、听觉的艺术、时间的艺术。它以声音为载体,而声音具有瞬间性、直接性,因此长期以来音乐一直被认为是一门感性的学科,音乐给人们带来的愉悦感,也总是被人们
目的探讨IL-15基因转染联合肿瘤抗原负载的新型前列腺癌树突状细胞疫苗(IL-15/lysate-DC)的免疫生物学特性。方法1.以小鼠肾脏cDNA为模板用pfx DNA ploymerase扩增mIL-15目的
技术竞争情报(CTI)是情报专业工作者将竞争情报(CI)方法运用于企业的科技工作而出现的,虽然CTI出现得比CI晚,但受到人们越来越多的关注,企业人士、研究人员、技术专家和投资
邮政物流是运筹学和现代物流的重要应用领域之一,其车辆路径问题是一类理论与生产实际联系紧密、复杂条件下的多约束、多目标车辆路径问题。涉及的约束条件和影响因素主要有