易混淆语音识别技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:gandianci20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
易混淆语音是指那些具有相似发音机理,在听觉上容易混淆,容易被系统误识的语音单元。众所周知,随着语音识别算法的日趋成熟,易混淆语音的存在成为影响语音识别率的重要因素之一。无论是连续语音识别还是孤立词识别,都无法回避这个问题。易混淆语音容易被系统误识的原因很多,一方面是因为对它们提取的特征矢量没有完全把它们区分开,另一方面由于传统的声学模型中,所有HMM模型都是由相同数目的状态和GMM组成,而不同发音单元的发音时长相差很大,所以传统的声学模型不能准确的描述所有的发音单元。本文主要对语音识别系统中的特征提取部分和声学模型部分进行了研究,并做出了有效的改进,以便降低系统对易混淆语音的错误识别率。   论文的主要工作包括:   1.在分析了常用的几种特征提取方法的基础上,利用小波分析在分析非平稳信号中的优点,结合LPC分析,引入了一种新的特征参数-WLC参数(Wavelet based LPCCoefficient, WLC),提高了易混淆语音的识别精度,并将其与传统的特征参数MFCC和LPCC进行了实验比较。   2.分析了常用的特征分析算法,研究了流形学习方法的思想以及拉普拉斯特征映射算法,通过将局部保持映射算法(Locality Preserving Proj ections, LPP)运用到语音识别系统中,提高了易混淆语音的识别率,并就其在计算过程中遇到的问题给出了解决方法。   3.对HTK平台进行了详细的研究和分析,熟悉了基于HTK平台的HMM模型训练和性能评估的方法。   4.分析了传统的声学模型的弊端,并根据实际情况,设计了两种不同的韵母拆分方式,最后利用HTK工具实现了基于这两种方式的上下文相关音素建模,同传统的模型相比,新的模型的易混淆语音识别率得到了很大的提高。
其他文献
在手机、PDA和MP4等移动终端上观看图像和视频时,需要对原始图像和视频进行缩放,以适应显示设备的分辨率。但传统的缩放技术,并不能得到好的缩放效果。例如,图像重采样会使缩
射频识别(Radio Frequency Identification,RFID)技术是一种利用射频信号获取目标信息并识别目标的无线通信技术,而无芯片RFID技术以其低成本的优势成为了研发关注的焦点。本
无线紫外光(Ultraviolet,UV)通信是散射通信,通信距离较短,具有非直视通信、抗干扰能力强等特点。直升机编队飞行可以提高飞机的整体效率,将直升机编队飞行和紫外光通信相结合,可以
近年来,随着无线通信技术的快速发展,各种无线通信系统纷纷出现,认知无线传感器网络(Cognitive Radio Sensor Networks, CRSN)也受到越来越多研究者的关注。它不仅能解决传统
机械系统在生产和使用过程中,会出现损坏、变形、变质等情况,所以需要对机械系统的安全性进行监测。然而随着机械系统应用范围的扩大,用于机械系统的传统安全监测系统,已很难
正交频分复用(OFDM)技术通过将频率选择性多径衰落信道在频域内转换为平坦信道,减小了多径衰落的影响。多输入多输出(MIMO)技术能够在空间中等效为独立的并行信道同时传输多
随着电动汽车的迅速发展,一直以来困扰车用动力电池的成本、寿命问题迫切需要得到解决。现在的动力电池还未达到车载能源的要求,研究电池荷电状态(SOC),在电动汽车运行过程中对镍氢电池SOC实时监测,能让电池的能量得到最大限度的利用,延长电池寿命。本文针对车用镍氢电池SOC估算的主要工作如下:首先分析了镍氢电池的工作特性、影响SOC的因素,综合比较了几种传统的估算电池SOC的方法如电量累计法,电阻测量法
背景前不久,有读者来信反映其所在企业生产的半挂列车大部分车辆出现不同程度的吃(啃)胎现象.他们分析过一些可能导致啃胎的原因,如怀疑是拉杆、尼龙球头、悬架的问题等,但都
随着网络理论的发展和网络技术的日益完善,基于网络化的信号与信息处理成为近年来信号处理领域研究的热点。在分布式估计中,各网络节点依赖于邻居节点之间的局部数据交换和协
在现代军事对抗中,高科技武器扮演的角色越来越重要,谁能首先发现目标、跟踪目标、及时地捕获和锁定目标并能在最短的时间内实旌打击,谁就掌握了决定战争胜败的主动权。加大
学位