论文部分内容阅读
语音是人类相互之间进行交流时使用最多、也是最重要的信息载体。汉语音节由声母、韵母和声调构成,声韵结构是汉语音节特有的结构。汉语声母全部为辅音,具有激励类似高斯白噪声、波形变化剧烈、易受噪声污染的非平稳特性。时频分析方法是研究非平稳信号的有力工具,短时傅里叶变换时频分辨率不能自适应改变、魏格纳-威利分布存在交叉干扰项的缺陷。本文利用匹配追逐(Matching Pursuit,MP)稀疏分解对汉语声母进行原子参数化时频特征提取,具体研究工作如下:首先,研究了基于Chirp原子的汉语声母MP时频特征提取。采用过完备Chirp时频原子库,利用MP分解的原子伪魏格纳-威利分布累加稀疏表示了汉语声母的时频分布,迭代阈值为声母能量的90%,经过MP稀疏分解后的Chirp原子时频重构有效抑制了交叉干扰项,与利用Gabor原子分解相比,更加精细的刻画了声母时频能量分布。其次,研究了基于发声机理的汉语声母时频特征提取。综合汉语声母发声方法和发声部位的不同,将汉语声母分为浊辅音、塞音、塞擦音、擦音四类,采用时频平面具有较好局部性的Morlet小波、Gabor及Chirp原子三种时频字典,分别对四类声母进行了MP时频特征提取研究。仿真实验表明:对于具有谐波性的浊辅音,Gabor原子利用原子个数及耗时均较少;对于清辅音中的塞擦音和擦音,Chirp原子利用原子个数约为Gabor原子的90%、分解过程中残差能量衰减速度也优于Gabor原子。最后,研究了基于人耳感知的汉语声母MP时频特征提取。针对汉语声母激励类似高斯白噪声、极易受噪声污染的实际情况,文中选取半ERB尺度的Gammatone滤波器组人耳感知模型,改进了频带尺度选择方式,在信噪比40dB高斯白噪声环境下,对滤波之后的声母信号利用原子MP稀疏分解进行时频特征提取研究。仿真实验表明:40dB噪声环境下,两种原子均较好的重构了原始信号的时域波形:对于塞音p,第一帧中Gabor原子个数少于Chirp原子,从三帧分解的整体数据来看,Chirp原子使用原子个数为Gabor原子的94.74%;对于浊辅音r,Gabor原子使用个数及分解时间均较少。