基于听觉机理的鲁棒特征提取及在说话人识别中的应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:heguojing514
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学特征在自动语音识别技术中扮演着重要的角色,它的可辨识性和可区分性直接影响着最终的识别性能。经过研究者的不懈努力,声学特征的研究工作已经取得了重大进步,涌现了一些具有代表性的声学特征,大大促进了自动语音识别技术性能的提升。然而大量研究表明,在低信噪比的噪音环境下,特别是在非平稳噪音环境下,自动语音识别技术的性能与人类的听觉能力相比,尚有相当大的差距。究其原因,声学特征的鲁棒性较差的问题是导致这种情况的关键因素之一。研究还表明,仿真人耳的听觉机理有助于提升特征的鲁棒性,然而这方面的研究工作尚不完善,听觉系统在鲁棒性方面的相关机理还未能得到充分地挖掘。为了进一步提升自动语音识别技术的性能,仍需在仿真人耳的听觉机理方面投入大量的研究工作。针对声学特征在噪音环境下的鲁棒性问题,鉴于人类听觉系统的强鲁棒性,本文对基于听觉机理的鲁棒特征提取技术进行了研究,提出了几种鲁棒特征提取方法,并在说话人识别系统中对所提出特征的鲁棒性进行了评估和验证。本文的主要研究工作如下:(1)借鉴耳蜗在信号处理方面的非线性工作机制,提出了一种仿真耳蜗机理的鲁棒特征提取方法。首先,对常用的耳蜗滤波器组Gammatone进行了分析,指出了其在语音信号分解方面的不足,并在此基础上从语音信号处理的角度,给出了一个能有效体现基底膜滤波能力的滤波器组。接着,鉴于覆膜和基底膜间的耦合机制在听觉产生过程中所起的重要作用,模拟该耦合机制设计了一个频率选择性增益函数。然后,在上述研究工作基础上设计了一种基于耳蜗非线性处理机制的鲁棒特征提取方法。在说话人识别系统上的验证结果表明,由该方法生成的特征在鲁棒性方面优于梅尔频率倒谱系数(Mel Frequency Cepstral Coefcients, MFCC)和感知线性预测系数(PerceptualLinear Predictive, PLP)特征。(2)借鉴听觉中枢对声音信号的神经表示机制,提出了一种仿真听觉中枢编码方式的鲁棒特征提取方法。首先,明确了声音信号的内蕴时频结构(underlying structure)与听觉中枢神经表示之间的对应关系,并给出了内蕴时频结构的获取方法。接着,为了对获取的内蕴时频结构的有效性进行分析,给出了关于内蕴时频结构有效性的判断准则和度量方法,并提出了相应的优化方法。最后,在上述基础上提出了一种仿真听觉中枢编码方式的鲁棒特征提取方法。实验结果表明,与MFCC和PLP特征相比,由该方法生成的特征表现出较好的鲁棒性。(3)借鉴人类听觉在混合音分离方面的工作机制和超强能力,提出了一种基于听觉声源分离功能的鲁棒特征提取方法,并对仿真听觉中枢编码方式的声学特征提取方法进行了改进。首先,借鉴听觉的声源分离机制,以语音内蕴时频结构和噪音内蕴时频结构近似听觉中枢中语音和噪音的先验知识,并以语音和噪音的内蕴时频结构组成的联合基作为处理带噪语音时的分解字典。然后,针对联合基间较高的互相干性会导致声源分离失真的问题,提出了一个关于联合基间互相干性的优化算法,并从理论上证明了该算法的收敛性,且实验结果也表明该优化算法有助于提升基于联合基的稀疏表示在噪音和语音分离方面的性能。最后,在上述工作基础上,提出了一种基于听觉声源分离机制的声学特征提取方法。实验结果表明,由该方法生成的特征在鲁棒性方面不仅优于MFCC和PLP特征,而且还优于改进前的声学特征。(4)结合上述三方面的研究工作,给出了一个基于听觉机理的鲁棒特征提取框架。该框架由两层具有不同信号处理功能的模块串联而成,它们分别是基于听觉系统关注功能的目标音剥离层和基于听觉机理的特征表示层。其中,根据自动语音识别技术的需求,目标音剥离层还可以进一步细分为混合音分离和语音活动检测(Voice Activity Dectection,VAD)两层。前者主要将目标语音信号从噪音中提取出来,后者则在此基础上从语音信号中提取语音片段并剥离静音片段。之后,在该特征框架指导下,结合听觉声源分离功能和耳蜗非线性处理机制提出了一种鲁棒的声学特征。此外,为了向前兼容并为后一层提供有效的语音片段,本文还提出了一个基于声源分离机制的语音活动检测方法。实验结果表明,该特征在鲁棒性方面不但优于MFCC和PLP特征,而且还优于本文提出的前三种声学特征。另外,语音活动检测方面的实验结果表明,本文提出的语音活动检测方法优于经典的基线方法。
其他文献
看周围,你目光所及的每种生物,不论是植物、花朵、人类、鸟类,还是哺乳动物都有一个共同点,都是由细胞组成的。大部分可以用肉眼看到的生物都是由众多细胞组成的。说到众多,那真的
随着社会经济水平的发展,市场竞争越来越激烈,企业需按照实际经营状况减少成本、加大利润,提升企业竞争力。医疗集团正处于初步发展阶段,通过优化企业财税,增强企业竞争力和
Offner光学成像系统是一种经典的三反光学系统,最早是Abe.Offner提出。目前普遍应用于Offner凸面光栅光谱仪和中继望远成像系统中,尤其在宽谱段遥感仪器中应用优势明显。因此
目的:建立超临界流体萃取( S F E) 中药何首乌中的磷脂类成分的方法。方法:采用系统观察法考察了 S F E 的提取工艺,并用反相高效液相色谱法进行分离测定。结果:在 S F E 中,通过对萃取条件
目的:探讨松解脊神经后支治疗腰骶部疼痛的效果。方法:通过影像学定位,以针刀松解为主,辅以手法复正,火针走罐,激能电按摩等方法治疗腰骶部疼痛。结果:186例病人,治愈120例,有效53例,无
本文依据建设小型数据中心的实际需求出发,从基础硬件设施、网络拓扑架构设计、数据中心层级三个方面,探讨本地数据中心设计阶段如何考虑冗余策略和部署方法。系统冗余架构设
通过Stober法与溶液自组装的方法在二氧化硅球表面接枝了十八烷基三氯硅烷,采用滴涂的方法在木材表面制备聚二甲基硅氧烷和二氧化硅涂层。用SEM、FT-IR、XPS对其微观形貌、化
酿酒工艺在我国有数千年的历史,早在隋唐时期,就已经有了“封坛酿酒”的记载,但由于受历史因素和经济因素的影响,以及国民消费水平和消费能力的限制,我国的酿酒工业一直发展较为缓
在汽车的内部的复杂结构中,发动机是机械动力源,外界环境条件越复杂,其故障的检测与判断也就越困难。随着我国科学技术的不断发展,当前发动机故障诊断技术的研发与应用也实现了突
创业教育与产学合作教育有机结合,既是实现教育任务和教育目标的最佳方式和有效途径,也是新时期教育发展中培养创新创业人才的必由之路。文章阐述了创业教育的产学合作的多种