基于梅尔频谱域HMM的语音增强方法研究

来源 :北京工业大学 | 被引量 : 10次 | 上传用户:gtghs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的单通道语音增强算法虽然已经取得了很多进展,但是在应对现实生活中常见的非平稳噪声时,增强语音中往往会出现语音失真或者残留‖音乐噪声‖等问题。因此,如何在非平稳噪声环境下获得较好的增强语音成为实际应用中亟需解决的一项课题。本文利用梅尔频谱域的隐马尔可夫模型(Mel-Frequency Spectral domain Hidden Markov Model,MFS-HMM)提出了一套完整的语音增强方案。本文的研究工作包含如下三部分内容:第一,基于现有的MFS-HMM语音增强算法,提出了一种改进的基于MFS-HMM的语音增强算法。基于MFS-HMM的语音增强过程实质上是用加权滤波器对含噪语音进行滤波的过程。在改进算法中,本文先在梅尔频谱域和对数幅度域并行训练HMM,解决了由于滤波器估计不准确而带来频谱损失的问题。其次,本文将泰勒矢量级数(Vector Taylor Series,VTS)应用于含噪语音的HMM参数估计中,使得含噪语音的HMM参数与含噪语音更加匹配,从而使得加权滤波器更适用于含噪语音。HMM的并行训练和VTS的引入使得背景噪声得到有效抑制,大大提高了增强语音的主客观质量。第二,本文针对MFS-HMM语音增强算法中训练集和测试集能量不匹配问题,提出了一种基于能量调整的MFS-HMM语音增强算法。在该算法中,本文根据迭代期望最大(Expectation Maximization,EM)法在线调整纯净语音和噪声的对数谱能量,并在线修正纯净语音和噪声HMM的参数,使得训练集和测试集能量相匹配,有效地解决了能量不匹配对增强语音质量影响的问题,进一步提高了增强语音的主客观质量。最后,本文将所提语音增强算法应用到ITU-T G.718语音编码标准中的12kb/s编码器的前端。主客观质量测试结果均表明,所提方法优于G.718编码器中自带的语音增强方法,在噪声环境下,能获得较高质量的编码语音。
其他文献
计算电磁学的出现改变了电磁场理论的面貌,使人们能用更有效的方法去解决各种复杂的电磁场问题,并更直接地用场的观点去阐述各种现象。目前计算电磁学正向着高精度、高速度和高
摘要:教育事业是一个国家发展的根本,因为人才的培养离不开教育,而国家间综合国力的竞争,归根到底,是一个民族创新能力的竞争、是人才的竞争。因此,党和国家十分重视教育事业的发展,不断加大对教育的投入。而教育事业的长远健康发展,离不开教师,教师是教育事业发展的关键。这些年来,国家加大了对各级各类教师的培训,以期提高教师的综合素质,为我国教育事业的发展提供坚强的师资保障。因此,从国家级培训(简称“国培计划
电容薄膜真空规是一种真空度的传感器,在刻蚀、离子注入等半导体工艺设备中应用广泛。目前这种传感器还主要依赖于国外厂商的产品。本文基于国家科技重大专项课题“刻蚀工艺真
微波功率模块(MPM)作为一种新型的微波功率部件,由小型宽带行波管,固态功率放大模块和集成电源组成。在新一代电子战系统中具有重要的意义。 本文根据MPM的构成原理,对其中的
随着互联网信息技术的深入发展,多媒体内容在互联网上传播已经非常便捷,这使得一方面利用互联网进行以多媒体数据为载体的隐蔽通信成为可能,而另一方面互联网上的多媒体版权
白藜芦醇(resveratrol,Res)是植物体内一种重要的植保素,因其具有抗氧化、抗癌、保护心血管等医疗保健作用而引起人们的广泛关注。葡萄是大宗水果中唯一能合成Res的果品,葡萄和葡
电视是移动终端最后有待实现的一大媒体方式。接收地面数字电视是未来手机的一个重要功能,移动数字地面电视系统提供的高清晰度的数字图象和完美的家庭影院的音频效果是驱动
人胚胎干细胞(ESC)来源于胚胎囊胚期的内细胞团,它具有自我更新的能力和分化成为各类成熟细胞的潜能(多潜能性),包括神经元、血液细胞、肌肉细胞、胰岛细胞等。ESC提供了细胞治疗所
学位
光学微腔是指直径在5~500微米之间的光学介质谐振器。不同形状的微腔有其独特的用途:椭球微腔会带来光学多路复用器、记忆设备等的进一步发展;圆环谐振腔可用于高阶滤波器的改良
随着半导体制造技术的发展,基于IP核复用技术的片上系统(SoC)设计方法已成为超大规模集成电路设计的主要方法。本文首先叙述了SoC设计技术及可复用IP核的设计与验证方法,在此基