基于深度学习的语音带宽扩展技术

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:LIKE0610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音带宽扩展技术旨在应用语音信号处理方法,从窄带语音中恢复出相应的宽带语音信号,它在通信网络、智能终端、语音识别系统等领域具有广泛应用前景。近年来,随着深度学习理论的快速发展,语音带宽扩展技术取得了新突破,语音信号的带宽扩展效果也有较大提升,但相较于原始宽带语音信号,其语音质量仍有明显差距,还难以达到实际应用的要求。因此,语音带宽扩展技术的研究仍具有挑战性。本文应用深度学习理论,对基于深度神经网络的语音带宽扩展技术进行了研究,主要工作如下:(1)针对模型参数量大的问题,提出了一种基于融合卷积、卷积注意力机制和时域特征线性调制的语音带宽扩展模型。在该模型中,深度可分离卷积与普通一维卷积分别用于提取特征并加以融合;卷积注意力机制模块用于重新加权卷积层的输出特征,以获得更好的扩展效果;时域特征线性调制模块用于表征语音信号时序前后文的关联性。本文用VCTK英文数据集对所提出的模型进行训练,并在VCTK英文数据集、TIMIT英文数据集、THCHS-30中文数据集上进行了测试。实验结果表明,模型具有较好的语音带宽扩展性能和良好的鲁棒性。(2)针对扩展后的语音与宽带语音频谱差异较大及主观听感不佳的问题,提出了基于Sinc卷积与多头注意力机制的语音带宽扩展模型。该模型由Sinc卷积和Transformer模块组成,其中Sinc卷积利用滤波器的带通性质,使网络更加关注滤波器参数对性能的影响,以学习到更有意义的频域信息,且其参数量小,解释性更强;Transformer模块采用多头注意力机制,以提高模型的表征能力。用VCTK数据集对该模型进行训练和测试,实验结果表明,经该模型扩展后,语音的信噪比(SNR)达到22.68,对数谱距离(LSD)达到0.88,主观平均意见(MOS)得分达到4.06。使用VCTK数据集训练的模型,在TIMIT、THCHS-30数据集上进行测试,仍获得了良好的扩展效果,表明该模型具有较强的鲁棒性。
其他文献
毫米波由于其丰富的频带资源受到第五代(Fifth Generation,5G)/超五代(Beyond Fifth Generation,B5G)无线通信的广泛关注,然而其短传输距离等特性令其潜力难以发挥。由此,毫米波下垫式设备直通(Device-to-Device,D2D)蜂窝与无人机辅助这两种可拓展毫米波信号覆盖和改善信号传播环境的新兴网络成为重要的5G/B5G通信场景。5G/B5G通信愿景是期
学位
信号检测理论广泛应用于各种领域,水下未知弱信号检测一直以来都是军事海洋学的研究热点。传统信号检测方法是对噪声进行抑制或者削弱,但是随机共振理论是将噪声能量转化为信号能量来增强弱信号,从而实现弱信号检测。基于随机共振理论,本文提出了一种新的信号检测测度指标,用于检测水下未知弱信号的频率。当接收到的微弱信号输入到随机共振系统时,首先对输出信号进行频谱分析,将系统输出信号频谱中振幅最大值对应的频率作为信
学位
计算机断层成像技术(CT)是一种已经广泛运用于临床辅助诊断和医学观察的成像方法。随着人工智能时代的到来,基于深度学习的单视角CT重建技术成为了当前学术界的热点研究方向之一,相比于传统CT重建算法,单视角CT重建技术有着辐射剂量小,重建速度快等诸多优点,在医疗领域中,可应用于对癌症患者靶区进行实时定位等任务。本文对当前的主流单视角CT重建网络进行分析,并解决其中存在的问题,研究内容主要分为三部分:(
学位
随着海量的各式智能设备接入网络,以及各种新型产业海量数据传输与共享,人们对于无线通信的流量需求正以指数级增长。为了解决稀缺的频谱资源与快速增长的流量需求之间的矛盾,第五代(5-th Generation,5G)通信网络乃至正在规划的第六代(6-th Generation,6G)通信网络都在研究使用更高的频率进行通信,其中毫米波(Millimeter Wave,mm Wave)因其丰富的频带宽度而受
学位
随着通信技术的飞速发展,触觉作为视听之外人类第三大感知模态,赋予了人类感知与改变客观世界的能力。高质量触觉通信技术受到了学界和工业界广泛的关注。触觉遥操作系统是触觉通信的重要用例。触觉遥操作系统是一个通信延迟敏感的人类在环的闭环系统。目前有多种控制结构用于遥操作系统的稳定性控制,而通信延迟下不同控制下的遥操作系统的性能和稳定性,仍然是一个待研究的问题。遥操作系统性能的追求目标是临场感,指没有物理出
学位
移动通信技术的发展日新月异,促使各类通信设备不断地迭代升级。手机作为当今社会中最为常用的移动通信设备,在近些年的研究中受到了广泛的关注。虽然手机等移动设备的天线技术在不断进步,但由于进入5G时代,由于毫米波的特性,5G手机的天线在传输信号时容易受到路径损耗的影响,这使得天线仍需要进行改进。此外,应用于手机上的微带天线的工作带宽较小,较难同时满足兼容不同国家5G工作频段的需求。因此本文针对上述现状,
学位
红外弱小目标检测与跟踪是计算机视觉领域的研究热点。由于红外图像中弱小目标空间尺度小、强度弱,因而其形状、颜色、纹理特征不明显,且极易受复杂背景和噪声的干扰,导致提升目标检测算法性能的难度大大增加。随着红外弱小目标检测技术研究的不断探索,各类检测算法应运而生。针对这一难题,本文分别研究了基于改进动态规划检测前跟踪(Dynamic Programming Track Before Detect,DP-
学位
癌症严重威胁人类健康,患者的预后评估有助于诊疗方案的确定,有着重要的临床意义。在预后评估中,生存预测是其中的重要变量,分子分型的预测也有助于判断新辅助治疗的疗效,但预后评估本身是一个相对困难的任务。随着人工智能技术发展,基于深度学习的预后评估取得了很大进展,且越来越得到医学专家认可。然而目前的基于深度学习的预后生存预测方法未充分利用医生先验,对多模态信息也使用较少,生存期预测的准确率还有待提高;基
学位
随着无线通信技术的发展以及各种通信接入设备的增多,当前固定的频谱分配政策极大的限制了对有限频谱资源的利用。认知无线电技术允许认知用户机会式地利用环境中的空闲频谱资源,有利于提高频谱利用率,因而受到了广泛的关注与研究。同时,以学习并获取最佳动作选择策略为目标的强化学习算法能够极大提高系统的智能性,在自动控制和资源优化等领域受到了广泛应用。本文研究了基于强化学习的认知无线电动态频谱接入算法,实现了对有
学位
在多媒体信息化的浪潮中,人们可以利用现代化的拍摄设备和智能化的图像处理软件随心所欲地记录生活,但同时也给不法分子进行图像恶意篡改和信息犯罪提供了空间,数字图像取证技术应运而生。作为数字图像被动取证技术中的重要分支,相机型号来源鉴别为维护司法正义、树立版权意识及打击网络犯罪等方面立下汗马功劳,其目的是将待检测图像与其拍摄的相机模型建立联系以推动相关案件的司法取证工作。在传统的数字图像取证中,相机来源
学位