基于深度学习的语音增强研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:na2222222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为语言的声学表现,是人类信息交流最自然、最有效的手段之一。语音技术已广泛应用于耳机通话、手机通讯以及智能家居设备等日常生活中。在现实环境中,人或机器在获取语音信号的同时,会不可避免地受到各种噪声的干扰,这些干扰使接收到的语音并非纯净的原始语音,而是受噪声污染的带噪语音。在语音通讯等场景中,麦克风采集到的语音主要受环境噪声、房间混响以及其他说话人三种因素的干扰。语音增强的目的是消除这三种干扰因素的影响,获得干净的语音信号。由于现实环境复杂,基于统计和规则的传统算法难以应对真实场景的挑战。在过去的几年中,深度学习迅速发展。深度学习方法将语音增强问题转换为数据驱动的机器学习问题,与传统算法相比,性能获得了大幅提升。本文主要研究基于深度学习的语音增强方法,探索将语音信号处理知识和深度学习技术相结合的途径。信噪比反映了语音受噪声干扰的程度,是带噪语音的重要参数,准确的信噪比估计有助于更好地完成语音增强任务,因此本文首先提出了一种信噪比估计方法。之后,分别针对三种主要的干扰因素,研究了对抗环境噪声、房间混响以及其他说话人干扰的方法。本文的研究内容与创新点主要围绕以下几个方面:(1)信噪比估计。针对信噪比估计问题,本文首先对常见的18种声学特征进行分析,然后使用Group Least Absolute Shrinkage and Selection Operator(Group Lasso)算法和顺序浮动前向搜索算法(Sequential Forward Floating Search,SFFS)选择出更优的特征组合,使信噪比估计性能进一步提升。(2)语音降噪。针对环境噪声场景,提出了联合波束形成和深度学习的双麦克风语音降噪算法。通过分析双麦克风语音增强的不同输入特征,发现基于两个反向差分麦克风阵列(Differantial Microphone Array,DMA)的特征具有方便计算、反映频谱信息和频率不变等优点。尤其在麦克风间距很近的情况下,差分阵列的频率不变特性可以把不同频带之间的不同相位差信息转化成相同的幅度差信息。最终将提取的特征作为深度神经网络的输入,与基线系统相比,降噪性能得到了显著提升。(3)混响消除。针对混响场景,提出了一种噪声鲁棒性混响消除算法,该算法联合了传统信号处理中的权重预测误差算法(Weighted Prediction Error,WPE)和深度学习技术。同时,考虑到真实场景中存在噪声干扰,并且语音和噪声具有不同的传播路径,以及语音的稀疏特性等因素,提出采用双滤波器策略进行混响消除,达到了噪声鲁棒性混响消除的目的。(4)目标说话人分离。针对说话人干扰场景,提出了基于动态注意力机制的目标说话人分离算法。通过分析以锚语音(Anchor Speech)为线索的目标说话人分离问题,引入了动态注意力机制(Dynamic Attention)来更有效地捕捉锚语音中包含的目标说话人信息。该机制在基于编码器-解码器(EncoderDecoder)模型框架的基础上,提升了目标说话人分离的性能。
其他文献
学位
无论是国内还是国外、过去或是现在,转售价格维持(RPM)一直以奇特的方式存在:一方面,各国反垄断法都在不同程度、以不同方式对RPM进行原则性限制;另一方面,在如酒类、服装、珠宝、运动设备、汽车、汽油、电器等多个销售领域,PRM得到广泛使用,甚至成为某些产品的主导销售方式,包括欧盟在内的许多国家也不时推出关于RPM的豁免条款。中国自《反垄断法》实施以来,具有影响力的RPM案件不断进入公众和媒体视野,
学位
学位
改革开放四十年来,中国经济发展迅速,取得了辉煌的成就,已成为全球第二大经济体。然而,长期粗放式经济增长模式最终导致资源消耗严重和生态环境污染恶劣,阻碍了我国经济社会的可持续发展。党的十九大报告作出我国经济已由高速增长阶段转向高质量发展阶段的重要战略决策,关键内容是推动经济发展质量变革、效率变革、动力变革,提高全要素生产率。伴随着绿色发展理念的贯彻落实,绿水青山就是金山银山的理念已深入人心,考虑资源
学位
近年来,许多传统线下的休闲食品零售企业面临衰退,依托网络销售的电商线上增长也遭遇瓶颈,线上线下结合的新零售销售模式为企业的发展提供了方向,休闲食品的零售升级已是大势所趋。本文以重庆莉莱食品有限公司旗下牛浪汉品牌为例,分析其现存的营销问题,提出新零售视角下可行的转型发展策略及相关具体实施路径。
学位
学位
学位