耳蜗滤波器倒谱特征在语音识别中的应用

来源 :太原理工大学 | 被引量 : 13次 | 上传用户:myjjoey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人耳具有良好的抗噪识别能力,.因此在语音识别中更多的研究者致力于研究人耳听觉特性,建立更符合人耳听觉特性的语音特征参数模型。听觉特征能更好地提高语音识别结果,并增强系统的噪声鲁棒性。本文实现了一个新的听觉特征—耳蜗滤波器倒谱系数(Cochlear Filter Cepstral Coefficients, CFCC)。CFCC特征在模拟人耳基底膜响应的基础上通过小波变换实现了声音从外耳到基底膜传输的全部过程,此过程称为听觉变换。毛细胞函数将听觉变换后的语音信号转换为神经脉冲能量信号,由于不同频率信号引起神经脉冲的不同,毛细胞窗采用不同的窗长对该信号进行分析,所得信号经非线性响度变换将能量信息转变为感知响度,最后经过离散余弦变换(Discrete Cosine Transform, DCT)即得CFCC听觉特征。文章介绍了耳蜗滤波器的选择,毛细胞窗口函数,非线性响度变换,以及DCT五部分内容。与传统的傅里叶变换相比,听觉变换的谱平滑度好且谐波失真少。此外,傅里叶变换本质上只能处理平稳信号,通过固定窗长将非平稳语音信号分为多个短时平稳信号近似处理,从而造成了不同的频率信号只能用一种分辨率进行分析。但是听觉变换具有处理非平稳语音信号的优点,可以实现低频信号采用长时间窗分析,高频信号采用短时间窗,因此避免了使用长时间窗分析引起的将高频信息丢失的问题。本文分别采用18通道Gammatone滤波器倒谱特征和CFCC特征进行实验仿真,结果证明CFCC特征性能优于前者。听觉变换存在正反变换对,可以保证正变换之后的信息完整。本文进一步将CFCC特征与传统听觉特征MFCC(Mel-frequency Cepstral Coefficients)和RASTA-PLP(RelativeSpectral Perceptual Linear Predictive Coefficients)作对比,实验表明传统特征在纯净语音环境下识别率较高,但在噪声环境下识别率下降明显,而CFCC特征识别率高于传统特征,且噪声鲁棒性好。此外,本文分别采用Bark尺度和ERB尺度作为频率划分准则来提取CFCC特征,实验结果表明,两种划分标准下的CFCC特征具有良好的识别结果,且ERB尺度下结果更好。说明CFCC对频率分布划分适应性很好。最后多通道ERB尺度下的实验结果表明,随着通道数增多,识别率略有提高,但系统稳定性下降。
其他文献
无线局域网(WLAN)技术具有高带宽、低成本等优势,目前在短距离通信领域得到了广泛的应用。但是WLAN接入点的覆盖范围有限,节点移动速率受到极大的限制,这给无线网络的部署带
耳语音作为人类的一种辅助发音方式,在日常生活中起着较为广泛的作用,尤其是在金融领域,公安司法领域中各种身份的确认。说话者为了保证信息的私密性,常常会用到耳语音。正因
车载Ad Hoc网络是移动Ad Hoc网络的一种具体应用。由于构成网络的车辆节点运动速度快,造成网络拓扑结构变化剧烈,节点间链路频繁断开,路由协议的性能严重受损。因此如何改善
亲属人脸图像包含着丰富的生物本征关联信息,通过人脸图像进行亲属关系认证是模式识别和计算机视觉领域一个新的挑战,其目的是对给定的一对图像,系统能有效的判别他们之间是
人脸识别因其便捷、高效等优点逐步成为计算机视觉前沿应用领域一个热门话题,其应用主要包括访问控制、视频监控、社交网络、照片管理、刑事调查等方面。然而在实际应用中,人
电子按键是电子产品的基础部件,其表面质量直接影响电子产品的动态性能和使用寿命,因此,对电子按键表面质量的检测技术的研究是具有非常重要意义的课题。本文应用视觉技术、
扩频通信技术是当前通信领域研究最为广泛深入的一种通信体制之一,由于其抗干扰性强,保密性好,功耗低等诸多优点,无论在军用还是商用上都已成为非常重要的通信方式。但是,它也包含
9月27日至28日,中国共产党中国盐业总公司第三次代表大会在京胜利召开.大会的主要任务是:深入学习贯彻习近平总书记系列重要讲话精神,认真总结总公司第二次党代会以来的工作,
期刊
9月28日,备受中国盐业总公司广大党员干部职工关注的中国共产党中国盐业总公司第三次代表大会在全体代表的共同努力下,圆满完成各项议程胜利闭幕。我们对此次大会的圆满成功
期刊
盲源分离自提出,一直是信号处理领域的研究热点之一。欠定盲源分离是观测信号数量少于源信号数量的盲源分离模型,更符合现实应用要求。目前解决欠定盲源分离问题主要是基于稀