基于时间序列深度学习的双耳语音分离研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:qinyalin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离作为语音信号处理系统的前端,其分离效果直接关系到后续语音信号处理的性能。目前传统的语音分离算法在低信噪比和高混响环境下性能下降明显。本文在人耳听觉感知特性的基础上,根据语音信号的空间特征,研究了基于深度学习算法的双耳语音分离算法:基于门控循环网络GRU(Gated Recurrent Unit)和幅度谱掩膜SMM(Spectral Magnitude Mask)的双耳语音分离算法,基于时间卷积网络TCN(Temporal Convolutional Network)和幅度谱掩膜SMM的双耳语音分离算法。(1)基于门控循环网络GRU和幅度谱掩膜的双耳语音分离算法。本文使用Gammatone滤波器组,模拟人耳蜗对语音信号的处理过程,通过预处理将原始语音信号划分为时频单元。在时频单元上提取双耳空间特征参数,包括耳间互相关函数CCF(Cross Correlating Function)、耳间时间差ITD(Interaural Time Difference)和耳间强度差ILD(Interaural Level Difference),组合作为分离特征。基于监督学习的语音分离算法一般采用DNN(Deep Neural Network)网络作为分类器,DNN的方法由于只使用当前帧的特征进行分离,忽略了语音信号特征参数的时序性。针对这一不足,本文选用门控循环单元搭建循环神经网络,将当前帧和前后各5帧的空间特征进行拼接,作为神经网络的输入。训练目标选用幅度谱比值SMM,更好地刻画各个目标语音在时频单元内的占比情况。本文分离结果评价指标选用SAR(Sources to Artifacts Ratio)、SIR(Source to Interferences Ratio)、SDR(Source to Distortion Ratio)及PESQ(Perceptual Evaluation of Speech Quality),实验结果表明此算法在低信噪比及混响环境下的鲁棒性优于基于DNN网络的分离算法。(2)基于时间卷积网络TCN的双耳语音分离算法。RNN(Recurrent Neural Networks)网络训练中更容易发生梯度消失以及过拟合现象,训练速度慢。TCN网络基于一维卷积,跳出RNN框架来处理序列信息,利用膨胀卷积可以关联较久时间之前的信息,可基于多帧特征并行计算,训练速度更快,因此本文选取TCN网络实现双耳语音分离算法,提取前后5帧及当前帧的耳间互相关函数、耳间时间差及耳间强度差作为输入特征,搭建的TCN网络共四层,每一层为两个一维卷积层组成的残差结构,卷积膨胀系数依次随层数增加依次扩大,后接多层前馈网络到输出,训练目标选用幅度谱比值SMM。实验结果表明,TCN网络更好的利用了语音信号的序列性特点,相对于基于门控循环网络GRU的算法在各项评价指标上均有提升,且网络训练的速度更快,较少出现过拟合现象。
其他文献
隐形眼镜已成为人们日常必不可少的生活用品之一。硅水凝胶镜片由于其高透气性以及高舒适性,替代水凝胶镜片成为了隐形眼镜市场上的主流产品,故开发适用于硅水凝胶镜片的高效低毒的护理液,提高佩戴安全性,具有巨大的社会效益和经济效益。隐形眼镜佩戴时,镜片与人角膜直接接触,泪液中的蛋白质、脂质等污染物会沉积在镜片表面上,造成镜片的污染、佩戴的舒适度的降低以及眼部疾病[1],这些已被研究证实,引起了高度重视并对护
企业想要保持可持续的高速发展,需要解决的核心问题是明确并实施切实可行且有效的发展战略。B公司作为最早且成功的合资公司,丙烯产业链产品包括丙烯酸,丙烯酸酯系列和丁辛醇产品,为国内外化工市场提供了重要的化工原料。但是随着国内化工产业产品应用开发的广泛和深入,对基础原料的需求也随之大幅度增加。受到需求增加以及丰厚利润的刺激,中国化工产品产能进入了急剧扩张的时期。在此背景下,B公司需要认识到在愈加激烈的市
60GHz频段具有丰富的免认证频谱资源,为进一步提高通信系统的传输速率带来了可能,随着射频技术发展,60GHz毫米波通信逐渐成为下一代无线通信的研究热点。从传播特性来看,60GHz毫米波信号的自由空间损耗大,氧气、降雨、植物以及障碍物都会带来较大的信号衰减,适合短距离通信,具有较高的安全性和空间复用性。通过信道估计算法得到信道估计值后,利用均衡技术可以抵消大部分信道的干扰,信道估计的准确度会影响通
随着毫米波通信乃至太赫兹通信时代的到来,天线与有源电路一体化封装集成受到越来越广泛的关注。能够和工作在5G/6G通信频段的射频电路芯片直接集成,同时能够满足高传输速率、高通信容量和芯片上小型化需求的多频带圆极化天线,是当前具有很大实用价值的研究课题。与传统高增益天线相比,全息阻抗调制表面天线具有剖面低,馈电网络简单、易共形等优势。为了实现不同应用场景下多频带、多波束、圆极化的片上天线,本文分别从标
垃圾分类成为新时尚后,厨余垃圾从原来的生活垃圾混装混运体系中分离出来,迫切需要建立一个相对独立完整的收运处理体系,而收运车辆的行驶线路和终端资源化利用处理站的选址直接影响着整个收运体系的运行效率和成本。本文以图论和线性规划为理论基础构建了厨余垃圾收运线路优化模型,建立了相应算法,并以昆山市千灯镇为案例验证了线路优化方法的可行性;结合层次分析法、GIS空间分析、聚类分析建立了厨余处理站布局优化模型,
随着体外诊断技术的快速发展,设计小型化,便携式的生物芯片已经成为了当前的研究热点。然而目前的检测技术可以实现的检测通量较低,且样本间往往存在不同程度的交叉反应。尤其在新冠疫情背景下医疗资源更为紧张,目前的检测方法很难满足医院里多样本同时检测的需求。垂直流免疫分析技术由于检测时间短,信噪比高和多路复用能力强等优势引起了学者们的广泛关注。基于表面增强拉曼技术的SERS纳米标签具有多重编码能力,且其具有
本研究以H社区青少年性教育小组为例,运用社会工作的理论与方法介入青少年的性教育,来探索以小组工作的方式介入青少年性教育的可行性和有效性,和社会工作理论视角在其中的适用性,并发掘社会工作在青少年性教育领域的实践优势。首先,本研究以“童成课堂儿童性教育——皖家妇儿关爱项目”为依托,对H社区青少年家长进行青少年性教育认知及需求的问卷调查,并结合H社区内对青少年的访谈,分析H社区内青少年面临的性教育需求,
城市交通拥堵的重要原因之一是有限的道路供给资源与高涨的交通需求量不匹配,日益增长的私家车保有量则使这一问题日趋严重。尽管我国城市道路面积逐年上升,但城市交通拥堵却并未得到解决,道路供给资源的增加仍然在不断诱发新的交通需求。为解决以上问题,现阶段我国城市交通管理的思路正从单方面增加供给向需求调控转变,而了解城市交通网络供给水平则是需求调控的重要前提。但是,现有道路通行能力定义及估计方法,缺乏对道路供
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其频谱效率高、可有效抵抗频率选择性衰落而得到广泛的研究和应用。然而实际的应用中存在信道冲激响应的长度可能超过循环前缀(Cyclic Prefix,CP)长度的情况,称之为CP不充分。CP不充分会造成接收信号中存在子载波间干扰(Inter-carrier Interference,IC
聚苯乙烯微球相较于其他材料微球具有刚性强、化学稳定性好、耐腐蚀等优良的物理化学性质,因此被广泛应用于标准计量、合成模板、生物科学、环境科学等领域。这其中,单分散的聚苯乙烯微球可直接作为尺寸标准微粒,而带有不同官能团的聚苯乙烯微球可以通过和抗原、抗体结合在生物检测、靶向治疗等方面发挥重要作用。然而我国现有微球技术与世界先进水平仍有一定的差距,这对我国的发展产生了一定的影响。本研究结合目前国内引发剂、