基于深度学习的单通道语音分离方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:bjkhs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离旨在将多个混合的语音分成单独的语音信号,它在人机交互、语音识别、数字音乐等领域具有广泛应用。多年来,有关单通道语音分离技术的研究已取得一定进展,但由于单通道固有的欠定性,使得传统方法的分离效果不佳。随着深度学习的兴起,数据驱动型方法在解决单通道分离问题上表现出明显优势,基于神经网络的单通道语音分离方法有所发展,但分离性能仍旧有待提升。本文应用深度学习理论,研究了基于深度学习的单通道语音分离技术,所做的主要工作如下:(1)针对低计算复杂度场景,提出一种基于压缩激励注意力和U型卷积模型的语音分离方法。该模型由编解码器、分离网络和分组交流模块构成,其中分离网络由多个U型卷积结构组成;在U型卷积结构内部,通过采用多卷积核下采样和压缩激励注意力,在不显著增加计算量的前提下降低信息损失。在该方法中,混合语音信号首先经过编码器,然后将编码序列通过分组交流模块进入参数共享的分离网络处理,得到估计的掩蔽向量;最后,对原编码信号进行掩蔽处理,再通过解码器得到分离后对应各说话人的语音信号。实验结果表明,该方法具有良好的分离性能,可以以更小的参数量和计算量取得较好的分离效果。(2)为进一步提升时域语音分离的性能,提出一种基于双路径混合自注意力模型的语音分离方法。模型由编码器,解码器和分离网络组成,编解码器系数均用学习的方式获得。分离网络由多个改进的自注意力模块组成,每个模块包括局部处理模块与全局处理模块,其中局部处理模块通过循环结构增强时序捕捉能力,全局处理模块由卷积结构增强细节捕捉能力。在该方法中,时域混合语音信号首先经过编码器,并将编码序列进行分块重叠;然后依次传递给分离网络、一维门控卷积层并进行掩蔽处理,得到分离序列;最后,经过解码得到分离后语音信号。实验结果表明,改进的双路径混合自注意力模型在时域语音分离任务中表现更好,与已有方法相比其分离性能有一定提升。
其他文献
随着我国经济技术的高速发展,建筑能耗逐年增长,2019年公共建筑运行能耗占建筑运行阶段能耗的39%。国家大力推广可再生能源应用,开展绿色行动,实施节能工程。土壤源热泵系统利用浅层地热能作为冷热源,有很大的潜力,但是在严寒寒冷地区,冬夏季温度相差大,冬季累计吸热量多于夏季累计放热量,长期运行土壤出现冷堆积现象,系统无法继续运行,可将太阳能作为热源,将太阳能集热器吸收的热量储存在土壤中,补偿土壤失去的
学位
随着人们生活质量的提高,公共建筑的室内空气质量问题受到社会的广泛关注。其中,由细菌、真菌、病毒及各种过敏原等引起的空气微生物污染问题更是当前主要存在的建筑环境生物安全问题。近年来,大规模流感疫情(如H1N1、SARS、COVID-19等)频繁发生,这些突发性公共卫生事件的室内传播及扩散,与室内通风量不足紧密相关。集中式空调系统作为室内外空气交换的主要工具,同时保证室内微生物不交叉感染和室内通风换气
学位
随着城市化进程的发展,中国大城市中的长大隧道已经变得越来越普遍了。在隧道内,尤其是长大隧道内,受到结构封闭和高车流量的影响,隧道内部空气质量通常比开敞环境要更为恶劣。因此,本研究重点关注城市公路隧道内部关键污染物扩散及通风系统优化控制策略。在研究过程中,本文采用理论计算方法计算了隧道在不同污染控制目标下的通风系统关键参数。同时采用数值模拟方法分析了在只有交通风条件、交通风和射流风机平送条件以及交通
学位
在建筑领域中,公共建筑能耗总量和用能强度巨大,其中,中央空调系统能耗占公共建筑总能耗的60%以上,因此,公共建筑中央空调系统是我国建筑节能的重点对象。2020年初以来,新型冠状病毒肺炎(COVID-19)在世界范围内蔓延,给公共建筑中央空调系统在空气净化、消杀防疫上提出了更高要求。另外,建筑智能化技术、特别是群智能等新一代建筑智能化技术的发展,也为我国公共建筑机电设备系统节能改造、能源环境监测及消
学位
随着社会的进步,人们生活水平得到改善,如何通过改良空调系统来营造一个舒适节能的室内环境一直是专家们关注的重点。近年来,随着辐射空调作为温湿度独立控制空调系统的代表形式,凭借其舒适节能的独特优势逐渐得到认可。由于辐射空调系统包括辐射供冷末端和独立新风系统,因此其室内环境将同时辐射供冷末端参数、独立新风系统参数以及室内、外负荷等多因素影响,室内空气温度和速度分布规律尚不明确,而这是辐射空调系统合理设计
学位
巴基斯坦是世界人口第六大的国家,同时巴基斯坦也是一个能源短缺的国家。近年来随着巴基斯坦人口以及工业区的增长,巴基斯坦正面临着严峻的能源危机。长期以来巴基斯坦能源消费主要还是依赖于传统的化石能源,对可再生能源的利用非常少。然而随着巴基斯坦传统化石能源的减少、化石能源价格的提高以及化石能源对环境的污染,发展清洁可再生能源来减少化石能源消费和减少环境污染是十分必要的。巴基斯坦的建筑能耗占总能耗的绝大部分
学位
近年来老龄化加剧、越来越多室内物理环境问题显现,老年人居室健康需求难以满足。建筑学等学科围绕老年宜居环境营造开展大量研究,主要从套型设计、人体工学等要素开展了满足行动健康需求的适老化研究。马斯洛需求层次理论提倡老年人积极多样化的自我实现,现有研究缺乏综合考虑老人环境心理学、自身需求特征、室内环境暴露健康效应的一体化环境营造方法。本研究以我国寒冷地区部分省份建筑为研究对象,通过合理的技术路线,形成了
学位
面向用户端的合理用能需求开展能源供给侧结构性改革是实现“碳达峰”和“碳中和”目标的重要举措。通过文献及实地调研发现,量大面广的居住建筑存在严重的能源浪费问题,尤其是因能源应用系统结构不合理所导致的高品味电能利用效能低的问题,使其成为最具节能潜力的领域之一。本文针对开展居住建筑能源革命面临的关键科学与技术问题——居住建筑用户端的合理用能需求是什么与如何开展居住建筑能源供给侧结构性改革,结合理论分析和
学位
目前的商用飞机采用混合通风模式,即从座舱顶部送风,在侧壁靠近地板附近排风。混合通风意在提供均匀的热环境,以满足乘客舒适需求。然而,混合通风存在污染物交叉传递和引发疾病传播的风险,因此研究人员提出使用置换通风来减少舱内空气的混合,但是常规置换通风系统在座舱内容易形成较大的温度分层,给乘客脚部造成吹风感。现有研究对置换通风系统进行了一些改进,例如仅通过过道地板来供风,或者通过每位乘客座椅下方的风口来供
学位
自然场景文本检测旨在对各种现实场景中的文字区域进行定位,它是机器理解现实世界的重要步骤。目前,基于深度学习的自然场景文本检测已经成为计算机视觉领域的重要研究方向,其实际应用领域也越来越多,比如图像(或视频)搜索、字幕翻译、人机交互、机器自动化等。基于卷积神经网络的自然场景文本检测主要分为边框回归和分割两种方法。边框回归方法通常将文本检测视作目标检测领域的子任务,对于弯曲状文本的检测效果不理想。基于
学位