听觉场景分析计算模型及在语音识别中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:shi12345600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算听觉场景分析的研究动机是使计算机能够像人的听觉系统一样,有效地处理复杂声学环境中的目标语音。本论文的研究工作针对混合语音的语谱成组和声学建模等问题从计算听觉场景分析自底向上和自顶向下两个角度及其在语音识别中的应用进行了探索,主要包括以下三方面工作:   (1)在语谱的瞬时成组中,基于调频谐波的提取是言语知觉抗噪的重要机制这一机理,本文提出了基于多尺度Fan-Chirp变换的调频谐波多尺度分析方法,用来进行单通道混合语音的分离。实验结果表明分离出的语音信扰比相对于单尺度分析的基线系统有显著的提高。   (2)在语谱的序列成组中,受听觉机理中的启动效应的启发,本文提出基于说话人嗓音特性的语音时频片断序列成组,形成了单一说话人的目标语音流,进而实现对目标语音的识别。实验结果表明,低信噪比下经该听觉场景分析的计算模型处理的语音识别结果较原始混合语音有所提高。   (3)基于听觉场景分析中的模式理论,本文在自动语音识别中从数据和模型的失配问题及数据稀疏问题的角度,进行了子空间分析和模型选择的应用研究;并将贝叶斯阴阳和谐学习框架中的k主邻策略成功应用到大词汇连续语音识别的区分性自适应解码过程中,识别性能稳定提高。   上述工作有效地利用了听觉机理在生理和心理上的研究成果,在听觉场景分析的计算模型和自动语音识别中进行了研究和应用。
其他文献
学位
目的回顾性分析早产儿代谢性骨病(MBD)的临床资料,分析早产儿MBD的高危因素,为临床规范诊治提供依据。方法回顾性分析2016年1月至2017年12月于青岛大学附属医院新生儿监护病房住院的出生体重<1 500 g的早产儿资料。将生后血清碱性磷酸酶(ALP)>500 IU/L且同期血磷<1.5 mmol/L,出生体重<1 500 g的早产儿纳入研究组,随机选取未发生MBD的出生体重<1 500 g的
本文通过对荣华二采区10
期刊
随着旅游产业规模的日益增大,随之而来的旅游环境问题日渐突出。研究旅游开发活动对自然生态系统及其服务功能的影响,对于正确引导区域旅游开发活动,实现区域可持续发展具有十分
为得到高分辨率宽覆盖的SAR图像,近年来开始了对一种新的合成孔径雷达体制--多发多收合成孔径雷达的研究,通过多个孔径同时发射和接收雷达信号,可在展宽测绘带的同时,实现高
学位
近年来,高分辨率图像在众多应用场合中的需求日益增大。然而,理论及实际因素常限制了很多数字成像系统的可达分辨率。图像超分辨率重建在这一背景下诞生并迅速发展,其目的是
网络协议是为实现网络上的应用活动约定的规则。适应人们的各种需求,互联网专家们设计了很多协议。基于客户服务器模型的HTTP协议和FTP协议,使得人们能够方便的按照这种规则
拟南芥单价阳离子:质子反向转运器-1(CPAl)家族共包括8个成员,命名为AtNHX1-AtNHX8。AtNHXl和AtNHX7/SOS1已经分别被证明为位于液泡膜及细胞质膜的Na/H反向转运器。AtNHX2-6在
本文通过对荣华二采区10
聚束模式、滑动聚束模式、ScanSAR模式和TOPSAR模式等是现代合成孔径雷达(SAR)的主要工作模式。借助于天线扫描能力的增强,这些模式有效地改善了方位分辨率及测绘宽度。但天
学位