基于深度神经网络的双耳语音分离方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:wangql133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离技术在语音信号处理系统及人工智能系统中有广泛应用。在实际环境下,传统的语音分离算法在低信噪比和高混响条件下存在泛化性能差等问题。本文结合人耳听觉感知特性,基于空间空间特征和谱特征,研究了基于深度神经网络的双耳语音分离方法。论文主要提出以下两种算法:基于前后帧信息的卷积神经网络CNN (Convolutional Neural Networks)双耳语音分离方法,基于语谱图和空间特征的深度聚类DP(Deep Cluster)语音分离算法。
  (1) 基于前后帧信息的卷积神经网络CNN双耳语音分离方法。基于Gammatone滤波器组模拟人耳的时频分析特性,将原始语音信号经过处理后得到时频单元,对时频单元提取双耳空间特征参数,包括耳间互相关函数 CCF(Cross Correlatin Function),耳间时间差ITD(Internaural Time Difference)以及耳间强度差ILD(Internaural Level Difference)。过往的语音分离算法只利用了当前帧的信息进行语音分离,而本文利用语音在时序上具有连续性这一特点,在提取得到空间特征后,拼接当前帧前、后各两帧的空间线索,得到耳间的空间特征图作为卷积神经网络的输入。本文选择SAR(Sources to Artifacts Ratio)、SIR(Source to Interferences Ratio)、SDR(Source to Distortion Ratio)及PESQ(Perceptual Evaluation of Speech Quality)作为分离结果参考指标,仿真结果表明此算法在低信噪比时显著优于基于IBM(Ideal Binary Mask)的DNN(Deep Nerual Networks)。
  (2) 基于语谱图和空间信息的深度聚类DP语音分离算法。由于语音在时序上具有相关性,因此使用循环神经网络RNN(Recurrent Neural Networks)可以更好对语音信号进行建模。本文选取双向长短时记忆单元BiLSTM(Bi-directional Long Short-Term Memory)作为编码器,融合了谱特征和空间特征,提取语音信号的对数幅度谱以及耳间相位差IPD(Internaural Phase Difference)作为输入的特征向量,将时频单元映射到高维空间。测试时,将高维空间向量通过K-Means聚类完成对时频单元的分类,结合混合语音进行重构得到目标信号。实验结果表明,基于深度聚类的语音分离算法,充分地利用了谱信息和空间信息,相较于基于前后帧信息的CNN的网络在SAR、SIR和SDR有明显提升,分离性能良好。
其他文献
VOCs是大气污染物中PM2.5和地表臭氧的重要前体物之一,目前以石油化工行业为代表的工业源排放的VOCs已成为我国大气中VOCs的主要来源。近年来我国化工园区的数量迅速增加,化工园区排放的VOCs带来的一系列环境问题引起了社会各界的广泛关注。化工园区排放的VOCs会严重影响周边地区环境空气质量,同时由于各企业所属的行业分类及其生产工艺较为复杂,排放的VOCs组分种类较多,包含有多种有毒有害成分,
学位
羟基磷灰石生物陶瓷是一种性能优异的人体硬组织修复材料,具有优良的生物相容性,植入人体后能逐步与人体骨结合成为一体.但由于其力学性能较差,还不能成为理想的承重修复材料,因此有必要进一步深入研究以发挥其生物学性能的优势.该文制备了HAP/NiAl复合生物材料,并对该材料的原料粉末的制备及特性与复合材料的烧结工艺、力学性能、微观结构进行了比较深入的实验研究和理论探讨,为下一步的研究打下实验和理论基础.首
目前全世界都在研究如何攻克日益严峻的能源危机问题,电力行业的可持续发展也逐渐开始转向新能源的开发利用,其中太阳能光伏发电作为有广阔发展前景的绿色能源占有者重要地位。然而光伏并网发电技术的推广遇到的关键问题之一就是孤岛效应,本文以光伏发电为背景主要研究孤岛检测方法。  孤岛检测方法目前可分为被动式检测法和主动式检测法两大类。被动式检测法通过检测公共耦合点的电压、频率、相位、谐波等参数的变化判断;主动
该工作系统研究了锡改性锆钛酸铅Pb(Zr,Sn,Ti)O反铁电-铁电体系在电场、温度和压力等外场诱导下的相变性能,在此基础上研制一种能够在低压力下实现铁电→反铁电转变的机电换能材料.通过制备出颗粒细小均匀的氧化物混合粉体,降低了陶瓷烧结温度、提高致密度.Pb(Zr,Sn,Ti)O陶瓷适当的烧结温度在1260℃附近,在这个烧结温度材料的力学、电学性能和相变性能得到优化.通过变温第一周电滞回线和热分析
该文从半导体的光敏性、光敏器件的一般参数出发,首先对光敏二极管的种类、结构、工作原理、特性及其应用作了简单的概括,并对PN型和PIN型光敏二极管的重要的光电参数进行了定性和定量的描述.SIPT是一种新型固态光敏器件.它相当于多个PIN光敏二极管并联且自带一个线性好、增益高、频带宽、噪声小的静电感应晶体管(SIT)放大器的光敏探测器,因而具有灵敏度高、增益大等优点.文中给出了该器件的结构、工作原理、
该文的主要工作是在深入理解和分析两种目前流行的串行总线协议USB1.1 和IC的基础上,进行USB1.1设备控制器和IC从模式接口电路的设计.随后,把USB1.1设备接口和IC从模式接口电路整合在一起,形成一个USB-IC串行协议转换器,使数据可以在USB1.1总线和IC总线之间相互传输.首先,该文系统地对USB1.1以及IC总线协议,特别是USB1.1设备和IC从模式涉及的总线协议,进行了详细的
学位
该文介绍了有关TEA CO激光器的一些基本原理,利用TEA CO激光器件的理论计算了折叠腔TEA CO激光器的一些结构参数及输出增益系数,利用气体快放电的模型对快放电过程进行了分析计算.在实验上,我们首先对折叠腔TEA CO激光器进行了安装调试,实现了双通道放电激励折叠腔TEA CO激光器的双通道同时辉光放电;双通道同时辉光放电下,对气体快放电过程进行了实验研究;完成了双通道放电激励折叠腔TEA
学位
近年来随着神经网络研究深度的增加,神经网络需要解决的场景越来越复杂,网络模型也随之变得复杂。复杂的模型使得预测过程的耗时逐渐变长,如何在保证原网络精度基本不变的前提下,对神经网络的预测过程进行加速是论文研究的重点内容。  论文主要研究了神经网络加速领域中的高效剪枝、低秩分解和硬件加速算法,并使用LeNet5、AlexNet、VGG11、VGG16等四种经典神经网络对上述加速算法进行实验验证。在此基
学位
近年来,随着材料技术、信息处理技术以及通信技术的发展,音视频会议系统已经克服了空间地理位置的限制,实现了人们远距离交互式的交流沟通。音视频会议系统可以让人们随时进行语音通话或者视频聊天,降低了沟通的成本,提高了办公效率。为了提高音视频会议系统的通话质量,使用自适应滤波器来消除回声信号对语音通话的影响。但是由于人们对音视频会议系统的通话性能要求越来越高,音视频会议系统中会配备多个麦克风设备和扬声器设
学位
随着无线通信技术的不断发展,电磁环境愈发复杂多变,传统的抗干扰方式缺少灵活性,无法动态地适应场景变化,高效可靠的智能抗干扰方案的研究势在必行。  本文设计了基于智能决策的抗干扰通信系统,将深度学习与强化学习算法应用到智能决策中,通过对传输环境的分析学习,完成信道与通信参数的智能选择,从而进一步提高系统的抗干扰能力。  首先对传统的抗干扰技术进行了概述,并对自适应抗干扰技术进行分析研究,指出上述方案