基于计算机智能聋儿语音康复训练系统的语音识别研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xhcbwrs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,聋儿的语音康复训练已经逐渐受到社会的重视。随着网络及多媒体电脑的普及,聋儿康复系统软件的需求也将越来越大,对其智能化的要求也越来越高。本课题即是来源于一套《汉语语音聋儿计算机智能语言训练系统》的开发。而我们所要开发的聋儿语音康复训练系统不同于现有的语音识别的产品,该系统根据聋儿的发音缺陷,对表示发音声调、语意、情感等信息参数分别处理,有针对性的对聋儿进行语音训练。并将提取的汉语语音参数,转化为可视化且简单易懂的图形,再与动画相结合,经视觉反馈提供给患儿准确的语音信息,使聋儿对自己的发音有个更清楚地认识,又能通过发音提示领悟到这些图形在自己的口型及发音上的实际物理意义,从而达到更好的训练效果。根据聋儿语音训练过程及其使用环境的需求,本文首先介绍了语音的预处理过程,重点研究了单音节汉语语音的声调识别和共性识别方法。从汉语语音的特点出发,提出了适合于聋儿语言康复训练的预处理和识别方法。预处理部分中,主要研究了端点检测方法。在很长一段时间里,语音端点检测算法主要是依据语音信号的时域特性,随着语音处理技术的发展,又出现了很多频域的端点检测方法。这些方法都存在各自的优缺点,根据其使用环境的不同,应该选用不同的端点检测方法。聋儿语言康复训练系统的应用环境为安静的室内,背景噪声较小。经室内环境实验,利用短时能量和短时过零率的端点检测方法即可满足系统的要求,且这种检测方法计算简单,有利于系统的实时实现。根据语音处理的需要,本文在原有算法的基础上进行改进,提取出语音的起始端、浊音段起始端以及语音的结束端三个端点,为此后的声调识别和共性识别作准备。最后,还简要介绍了存在背景噪声情况下的语音去噪方法,以提高聋儿语言康复训练系统的适用性。声调识别是聋儿语言康复训练系统的一个重要内容。由于说话的速度受情绪、形式和环境的影响,使得即使发同一个音,提取的声调轨迹也不尽相同,这种声调长度的不确定性以及个性的差异,使得声调识别变得困难。本文从汉语声调的变化规律出发,提出了基于一次曲线拟合的汉语单音节声调识别方法。该方法通过对声调轨迹进行一次曲线拟合,提取了声调轨迹方差、拟合直线斜率、拟合优度以及拟合后的残差平方和四个参数,通过对各个参数设置不同的阈值,来识别四声调。为了进一步提高识别率,还结合基于能量的预分类方法,来提高了三声声调的识别率。通过实验,这种声调识别方法,在不需要进行训练的情况下,最终达到了97.84%的正确声调识别率。语音的共性识别关系到聋儿对语意信息的理解,也是聋儿语言康复训练系统不可缺少的一个重要内容。本文从汉语音节的特点出发,提出了将音节的清音段和浊音段分别对比的语音共性识别方法。利用FFT系数对清音段识别的方法,能够让聋儿清楚的理解清音的发音方式,达到更好的语言训练效果;通过对LPCC参数、MFCC参数和共振峰参数的分析和对比,浊音段的共性识别采用了与发音器官联系密切的共振峰参数,并与短时能量相结合,可以从参数的变化对聋儿的发音给出提示信息。总之,本文从汉语语音特点出发,采用适合聋儿语音康复训练的算法,并达到了满意的识别效果。
其他文献
传统的视频压缩标准均采用块匹配(BMA)的运动估计算法来减少视频帧的时间冗余度。然而,BMA 假设块内的所有像素点作相同的平动,是基于平移模型的,具有一定的局限性和不足。可变
期刊
期刊
期刊
期刊
期刊
期刊
随着因特网以及其他通信网络的迅速普及,人们通过网络获取数字资源的需求在不断增加,数字媒体服务产业也应运而生。在大量数字资源被使用的同时,对于这些资源的权利保护问题
信号的稀疏分解是一种新兴的信号分析与处理方法,具有许多优良特性。其中基于匹配追踪(Matching Pursuit,MP)的信号稀疏分解是目前进行信号稀疏分解的常用算法,在数据压缩、
随着计算机网络和通信技术、多媒体技术的快速发展,出现了结合计算机网络技术、多媒体技术以及无线网络技术的数字视频监控系统。数字监控系统具有传统模拟监控系统无法达到