面向复杂场景的极低码率语音编解码和语音增强关键技术研究

来源 :上海交通大学 | 被引量 : 2次 | 上传用户:ice_city_82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信号处理技术的发展,语音通信系统和语音识别系统在理想条件下取得了良好的效果。然而,在面向宽带资源有限条件下的低码率语音通信、强噪声干扰条件下的语音识别等复杂应用场景,现有系统的性能会大大降低。低码率语音编码会由于量化误差导致语音可懂度的下降,并会随着码率的降低进一步恶化,这对高可懂度的低码率语音编解码提出了更高的要求。实际应用系统中的环境噪声干扰会使得通话质量和识别率大大降低,这对语音增强(或降噪)技术也提出了越来越高的要求。本文对复杂场景下低码率语音编解码和语音增强两大问题展开研究。针对极低码率语音编码问题,分析了语音信号不同感知层的表示方法及对应的编码方法,研究了只需要单一量化编码参数的参数层低码率语音编码方法,并以此为基础实现了语义层高可懂度编解码方法,具体研究内容如下:实现了采用梅尔倒谱系数的低码率语音编解码方法。该方法只需要一种参数表示语音信号,使得实现极低码率量化编码时不需要考虑参数间联合矢量量化的问题,从而极大地简化了量化器的设计。为了实现基于梅尔倒谱系数的高质量语音信号重建,在解码端实现了采用混合高斯模型的清浊分类和基音周期估计,并使用此信息实现了一种改进型幅度谱迭代逼近的方法重建时域信号。该重建方法充分利用了语音信号本身的特点,信号初始化为最小相位信号或者合成相位信号,从而实现了高质量语音的重建并加速了迭代算法的收敛速度。在基于梅尔倒谱系数编码方法的基础上,实现了一种采用深度神经网络的语义层低码率编解码方法,并对其中的基于语音参数重构信号和高维度数据量化两大关键技术问题展开研究。研究了受限波尔兹曼机结构的深度神经网络用于语音信号语义层的特征提取,实现了信号功率谱的语义层重构;研究了深度自动编码器用于高维度数据量化,实现了一种融合传统量化编码器和神经网络解码器的矢量量化方法。基于深度神经网络进行信号重构和高维度矢量量化,实现了语义层高可懂度的极低码率语音编解码器。针对复杂环境下的语音降噪问题,本文研究了单/多通道语音增强算法,实现了融合特定人信息的单通道语音增强方法,并实现了不依赖波达方向估计的噪声鲁棒性多通道空间滤波方法,具体内容如下:实现了一种融合特定人信息的单通道语音增强算法。该算法分别对噪声估计、噪声分类、噪声鲁棒的说话人识别、特定人信息的提取及融合进行了研究,实现了基于自适应混合高斯模型的噪声估计方法、采用参数域特征的噪声分类方法、针对典型的噪声环境分别建立对应说话人模型的话者识别方法、以及从说话人模型提取信息融合到语音增强算法的方法,从而减少了对噪声估计算法的依赖,有效提升了增强后语音信号的质量。研究了噪声鲁棒性阵列信号空间滤波算法,包括不依赖于波达方向估计的改进型最小方差无失真响应波束形成算法和基于广义特征值分解的盲波束形成算法,并分析得出噪声鲁棒性波束形成算法的关键是信号和噪声的时频掩膜估计。针对现有时频掩膜估计算法的种种不足,实现了一种功率谱域实高斯模型的时频掩膜估计算法,该算法较传统复高斯模型的时频掩膜估计方法大大降低了计算复杂度;实现了一种基于深度神经网络时频掩膜估计算法,该方法采用多目标训法并融合了阵列空间信息,较同类方法大大提高了时频掩膜的精度。综上所述,本文对复杂环境下的极低码率语音编码器和语音增强关键技术问题进行了深入研究和分析,研究了基于梅尔倒谱系数的语音编码方法并实现了语义层编解码器、研究了融合特定人信息的语音增强算法并实现了噪声鲁棒性空间降噪方法。本文为极低码率语音编码器和语音增强技术的应用提供了理论依据和实践参考。
其他文献
扼要介绍了21世纪世界涂料发展重点,并对水性隔热保温涂料的由来、发展历程以及面临的挑战作了简述。
近十年来,随着我国总体经济的高速发展,房地产业得到了空前繁荣,引起了人们广泛的关注。由于房地产业与众多其他产业具有较高的相关度,带动性强,保持其健康稳定发展的需求也
P2P为年轻的金融借贷中介机构,自2006年我国开始引入到目前为止共经历了五个阶段,原始信贷服务到第一批P2P大爆发(平台数量全球第一),随后2013年的倒闭潮与14年的情况加剧,迄
2001年8月1~2日,湖北省政府采购工作经验交流会议在湖北省黄石市召开,来自全省17个市(州)财政局分管政府采购工作的局长、政府采购办(中心)主任以及部分典型县(市、区)财政局
甘志国先生在文献[1]中指出2015年北京高考理科数学压轴题的命题背景是一类"数学黑洞"问题,并且作为对2015年压轴题的推广,在文末提出了一个猜想.本文中我们指出这个猜想在一
目的:观察基于扶正解毒治则的康艾注射液抗肿瘤及免疫调节作用。方法:体外培养CT-26,Lewis,SMMC-7721,MCF-7这4种肿瘤细胞,MTT法检测对其增殖的影响;建立Lewis肺癌、CT-26小
农村留守儿童是一个很大的群体,在我们这个地区,一般班级占学生总数的百分之五十到六十,少数班级占到百分之八十。留守儿童象八、九点钟的太阳,是国家的未来和希望,对偌大一
电力电缆在输电线路中广泛应用,但由于电缆在工作时会因为过载等原因而发热升温,使其绝缘性能劣化,进而发展成为绝缘击穿乃至火灾,因此,对电缆温度进行在线监测具有重要意义
目的观察普拉克索治疗原发性不宁腿综合征(RLS)的临床疗效及安全性。方法选取2013年10月至2015年9月煤炭总医院神经内科收治的原发性RLS患者60例,随机分为治疗组及对照组,每组
考虑空间卫星平台微振动环境对高分辨率空间光学遥感器成像质量的制约,提出了在地面测试光学遥感器耐受空间微振动环境裕度的六自由度激振平台的设计方案。建立了平台的运动