论文部分内容阅读
方言辨识是在已知一段发音所属语种的前提下,根据讲话者的发音判定其所属方言区域的一项技术,是非标准语音识别的基础,对语音识别技术的推广和应用有重要意义。目前相关的研究较少,此方面的研究不仅有利于提高方言语音识别系统的辨识率,而且对普通话评价、公安部门的刑事侦查等方面都有重要的价值。中国作为一个多民族多方言的大国,开展此方面的研究显得尤为必要。本文以湖南方言作为研究对象,对方言语音信号特征的提取、不同方言特征的差异及方言辨识中特征参量的合适选取进行了深入研究。针对语音信号具有很强的随机性而神经网络的输入结构相对固定等特点,提出了基于动态时间规整和神经网络的辨识方法,并对各种因素对辨识率的影响进行了分析。论文主要做了以下工作:1)分别提取了湖南长沙、株洲、湘潭和衡阳等四地方言的声学特征,包括共振峰、基音周期、LPCC系数和MFCC系数,对不同方言间所含的不同的特征信息进行深入的分析,发现不同方言在同一特征参数下表现出不同的特性,从而找到了对不同方言进行辨识的依据。2)将不同方言所提取的不同特征参数经时间规整网络分别规整为48维后,作为BP网络的输入,发现选取不同特征参数对不同类方言和不同声调方言所得到的系统辨识率不一样。选取基音周期作为特征参数时,系统的平均辨识率为79.2%左右,选取LPCC系数作为特征参数时,系统的平均辨识率达到84.2%,选取MFCC系数作为特征参数时,系统平均辨识率可达到86.3%。3)对本文所提出的基于动态时间规整和神经网络的方言辨识系统的性能进行了分析,讨论了规整维数和隐含层神经元个数对系统辨识率的影响,实验结果表明:将输入参数规整为48维的辨识率要稍高于规整为36维的辨识率;隐含层神经元个数在10个时,辨识系统可以达到较好的效果。