噪声鲁棒性语音识别：从特征提取到声学模型的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：ioljok1988

【摘要】

：

该论文的研究课题是噪声鲁棒性语音识别.因为语音识别系统在噪声环境中识别性能会严重下降,所以噪声鲁棒性是目前语音识别面临的主要问题之一.我们从特征撮到声学模型进行了

【作者】

：

朱东来

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2003年期

【关键词】

：

语音识别声学模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该论文的研究课题是噪声鲁棒性语音识别.因为语音识别系统在噪声环境中识别性能会严重下降,所以噪声鲁棒性是目前语音识别面临的主要问题之一.我们从特征撮到声学模型进行了一系列的研究工作,提出了一些新的鲁棒性语音识别方法.第一个方法是略帧法.略帧法在识别过程中对每帧的似然值加权,帧权值是帧信噪比的函数.略帧法克服了忽略特征法的缺点:一是特征参数可以使用倒谱参数;二是只需要通过帧能量估计信噪比,鲁棒性能较好.但略帧法不能弥补语音频谱受噪声的干扰.为了进行语音频谱的补偿,在第二个方法中我们提出了将离散全极点模型(DAP)用于特征提取过程中以提高特征参数的鲁棒性.DAP频谱克服了LP频谱峰值会偏向基频谱波的缺点,且在计算过程中可以对IS距离进行加权.我们用时频域信噪比对DAP加权.但该方法的性能受到信噪比估计精确度的影响.为了避开信噪比的估计,该文提出了第三个方法,一种新的子带加权自适应方法.该方法克服了传统子带法的两个缺点:一是保留了频谱带间的相关性;二是可以用自适应的方法对子带权值进行估计.我们分别提出了特征空间和模型空间的子带加权.根据最大似然自适应理论,分别提出了特征空间和模型空间子带权值自适应算法.以上的方法均基于HMM模型,在第四个方法中我们实现了基于HMM误差模型(HEM)的语音识别系统并提出了HEM的最大似然线性变换自适应算法,HEM是HMM的扩展,具有比HMM更灵活的拓扑结构.它将HMM的一个流(状态串)扩展到两个流,分别称为滤波模型和残差模型,而HMM是当残差模型为单高斯分布时的特例.与此相对应,HEM的自适应算法比HMM自适应自满MLLR更为灵活,我们可以分别对HEM的滤波模型和残差模型进行自适应.为了拒识插入噪声和集外词,在该文第五个工作中我们实现了基于填充模型和噪声模型的确信度判决法.我们使用所有声学模型单元的全连接网络作为填充模型,并对一些常见的短时噪声或突发噪声建立了噪声模型.该文还完成了一些相关的研究工作.在特征提取上,我们提出了一种结合MFCC和PLP的P-MFCC特征参数;提出了倒频域差分系数;对几种归一化能量(峰值归一化、均值归一化和标准归一化)的识别性能进行了比较.我们测试了基于能量和基于模型的端点检测的性能并对方法作了改进.为了在数据量有限的情况下提高音段切分的准确性,我们提出了一种自适应迭代切分标注方法,我们还提出了一种基于HMM的汉语韵律词基频模型.该模型既能有效地完成基频曲线生成,又能在大语料库语音合成中提高合成单元选择的准确性.

其他文献

高清帧率变换系统控制通路的设计与实现

随着高清数字电视的发展，视频质量的提升带来庞大的数据量，为了降低传输带宽，只能尽量压缩输入视频帧率。然而，目前主流显示器的刷新频率远高于视频帧率，另外液晶的特性也使得当显

学位

帧率变换高清系统控制通路超高清系统架构

面向无线嵌入应用的16位定点DSP内核的设计

在这篇论文中,分析了嵌入系统和无线开发领域对DSP内核的特殊要求,研究了针对这些要求DSP内核的特征和DSP内核设计可以采用的技术,并参考TI公司TMS320C54x系列数字处理器对设

学位

数字信号处理器硬件描述语言逻辑综合DSP内核嵌入系统

多载波通信技术研究

该文主要致力于研究在现在移动通信系统中与多载波通信有关的多方面的技术.我们首先从一种改进的用于异步DS-CDMA的解相关接收机出发,研究了它在实际通信环境下的性能,推导了

学位

多载波通信技术

WCDMA上行链路同步跟踪算法研究

在扩频通信系统中，为正确解扩和解调接收到的扩频信号，接收机的PN序列相位和接收信号的PN序列相位必须完全同步；同时移动无线环境中的传输信号总是被收发信机之间的许多障碍物所

学位

WCDMARAKE接收机多径搜索同步跟踪

基于对象的压缩编码及视频分级编码研究

该文在介绍MPEG-4标准中提出的主要编码算法的基础上,对任意形状视频对象编码算法和可分级压缩编码算法进行了深入研究.并在MPEG-4视频编码校验模型上对提出的新算法进行了仿

学位

MPEG-4纹理编码空域分级算法精细粒度分级高清晰度电视信源编码器

经内镜十二指肠营养管置放术在重度昏迷气管切开气管插管患者的应用价值

目的探讨经内镜十二指肠营养管置放术在重度昏迷气管切开气管插管患者的应用价值.方法对28例已行气管切开气管插管的重度昏迷患者进行经内镜十二指肠营养管置放术.结果本组28例患者经内镜十二指肠营养管置放术均获成功,术中未发生任何经内镜十二指肠营养管置放术相关性并发症.所有患者在术后立即恢复了胃肠营养.十二指肠营养管置放术最长用时为31min,最短仅8min,平均16min.患者平均带管时间为73(7～

期刊

经内镜十二指肠营养管置放术重度昏迷气管切开肠道营养

方位-时延TMA算法研究

针对传统的TMA方法仅适用于高信噪比且收敛速度比较慢的缺陷,本文研究基于射线模型的方位一多途时延TMA算法,讨论单基阵且观测器不机动情况下的定位问题。本文首先论述了

学位

TMA方法射线模型海洋参数声线跨度海底声线

TOA/TDOA蜂窝网络定位算法研究

蜂窝无线定位服务（LCS）是一种具有广阔市场前景的移动增值业务，其基本原理是利用现有蜂窝网络，通过对各种位置特征参数, 包括到达时间(TOA)、到达时间差(TDOA)、到达方向(DOA)的

学位

蜂窝网络定位到达时间到达时间差数据融合支持向量回归

基于嵌入式Linux路由器网络协议栈的研究与设计

该文深入分析并研究了Linux内核原有的TCP/IP网络协议栈的实现,重点放在整体层次结构的实现、网络设备以及数据收发流程.并在此研究基础上,针对高速宽带路由器研发项目的需求

学位

嵌入式Linux网络协议栈路由器

基于N-ISDN接入多媒体通信系统研究

近年来，数据通信业务需求急增，然而用户接入网这一瓶颈却制约了业务的发展，“一公里问题”是目前通信界的新课题。遍及我国城乡的铜线网是现今话音通信的物理基础，也是潜力巨大、

学位

N-ISDN接入多媒体通信H.320MC14557280C152

噪声鲁棒性语音识别：从特征提取到声学模型的研究

与本文相关的学术论文