混响环境下孤立词识别的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:woailzm002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别系统的鲁棒性是语音识别技术能否走向实用阶段的关键,因噪声或混响的存在,特别是远程语音操作系统中,混响会引起语音信号幅值变化、相位延时、共振峰偏移以及产生其它谱峰,拖尾的混响声部分还会掩盖后面语音的弱能量音部分,大大降低了语音清晰可懂度,导致识别率下降,因此克服混响是至关重要的。本文在混响基本特性和语音识别算法的研究基础上,提出将复倒谱线性滤波和自适应U-GMM结合的算法来提高混响环境下孤立词语音的识别率,主要研究工作如下:本文重点研究了混响的特性,针对混响语音是许多时间序列叠加和纯净信号衰减的特点,依据复倒谱域纯净语音信号的复倒谱通常分布在原点附近,而房间冲击响应的复倒谱则远离原点这一特性,首先由离散傅里叶变换将语音信号变换到复倒谱域,再通过盲解卷积线性滤波滤除混响的振幅和相位信息实现混响的消减,同时不改变源语音的信息特征从而减少语音的失真。针对混响影响跨越多个连续时间帧这一问题,提出根据过去特征向量值来自适应调整高斯混合模型,并利用最大期望算法使参数达到最优估计,结合复倒谱线性滤波器,将滤波后的混响语音输入该模型进行一一匹配识别,以提高混响环境下的语音识别率。对本文方法进行了实验仿真,分别采用主客观评价指标对混响语音识别进行了评价,结果表明,本文方法得到的识别率明显高于其他常用算法,可以很好地去除混响同时保证语音失真最小。最后总结了本文所研究的工作内容,提出了本文算法存在的缺点和不足,并探讨了未来进一步研究与改进的方向。
其他文献
技术的不断进步为人们提供了新的手段去监测人体的生理状况,由此产生了体域网(Body Area Network,BAN)。体域网的研究目的是设计出能够采集人体生理和运动信息的无线传感器网络
在实际工程应用中,由于现场工作环境和图像信号传输介质的不同,图像质量会产生各种形式的下降,图像去噪和图像增强就成为前期处理的重要手段。图像去噪是将带噪图像中无用的噪声
矢量控制理论在速度控制上的成功应用,使得交流调速系统取代了直流调速系统。为了达到高性能的调速要求,转速闭环控制必不可少,然而通过速度传感器获取的转速受到很多干扰和不确定因素的影响,并且成本偏高、安装不便,使得它的应用受到了限制。无速度传感器技术省去了速度传感器,使得交流调速系统变得简洁、廉价、可靠。矢量控制技术和无速度传感器的结合成为本课题的研究内容。首先,简述了异步电机无速度传感器矢量控制的发展
随着经济、科技的迅猛发展,各国对能源的需求日益增加,传统能源的短缺及其带来的环境污染等问题成为国际关注的热点话题。人们已经越加重视环保、可再生的新型能源开发、应用,也更加注重现有资源使用效率的提高。光伏发电系统以其清洁环保、取之不竭等优势,得到快速发展。本文围绕如何降低开关损耗、提升系统运行效率的主体思路,对光伏三相三电平NPC逆变器的调制、控制方法展开研究。首先,介绍了光伏发电系统后级二极管中点
压缩感知(Compressed Sensing,CS)是针对稀疏信号或可压缩信号的一种新理论,该理论打破了传统奈奎斯特(Nyquist)采样定律,是信号采集方式的一种大胆革新,有着非常广阔的应用前景。在
液面高度测量是铁路罐车容量计量的一种主要方法。目前铁路罐车液面高度普遍采用手动测量的方法。该方法测量效率低,劳动强度大,且难以保证精度。为了解决铁路罐车液位高度测量
在无线传感器网络(WSN)技术的相关研究中,从目前的情况来看,传感器节点布局的优化是研究的热点,WSN的覆盖率和网络生命周期是节点布局需要特别关注的两个重要因素。本文利用智能算
大系统理论是近些年来控制理论研究的热点问题之一。大系统广泛存在于工程、网络、社会、经济和军事等领域,此类系统往往具有复杂的结构,一般为多目标、多输入、多输出、多变量
四足机器人具有较强的机动性能和承载能力,以及较强适应复杂路况环境的能力,使得其在军事侦查、反恐防暴以及工程探险等诸多特种环境下具有广泛的应用前景,对四足机器人本体
近年来,纸张质量得到了很大的提高,但同时市场对纸张质量也提出了更高的要求。纸张的定量是反映纸张质量的重要参数,也是造纸自动控制系统中最主要的受控参量。定量控制是使纸张