基于序贯字典学习的单通道语音分离算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:alpine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离作为一种可以从混合语音中获得源语音的有效手段,受到越来越多的关注。现有的智能电子终端设备中的麦克风数目往往少于声源数目,极端情况下往往只有一个麦克风。因此单通道语音分离技术变得越来越重要。近年来字典学习算法越来越多的被用来解决单通道语音分离问题。基于字典学习的单通道语音分离算法假设不同声源具有其独特的成分,所以不同的声源可以用不同的字典进行稀疏表示。但是语音作为一种短时平稳信号,在处理时需要对其加窗截断,而截断之后的不同声源的语音信号的相关性大大增加,进而导致了不同声源具有了相似的成分。本文以此为出发点,提出了一种基于序贯区分性字典学习的单通道语音分离算法以及用于提高分离之后语音质量的语音后处理框架。本文主要内容与创新点如下:1.联合利用不同源语音的独特成分与相似成分,并构造了基于序贯思想的多层具有区分性的字典,在每一层中字典分为区分性子字典以及缓冲子字典。在训练阶段,我们通过构建合理的目标函数来确保各个源语音的独特成分尽可能多的分布在与之对应的区分性子字典中,相似成分则尽可能多的分布在缓冲子字典中。而分布在缓冲子字典中的成分则作为下一层字典的训练样本。在分离阶段,首先分离出当前层各个源语音的独特成分,其相似成分则在下一层中进行分离,直至混合语音得到完全分离。实验结果表明,基于序贯字典学习的单通道语音分离算法能够有效地降低分离之后语音之间的相互混淆。2.由于分离之后的语音仍然混杂着其他声源而且存在一定程度的失真,因此我们构建了包含三个子模块的语音后处理框架。这三个子模块分别为:降低训练集与测试集不匹配的自适应分离模块、降低分离之后语音相互干扰的时频掩码滤波模块以及降低语音失真的谐波重建模块。实验结果表明,通过该后处理框架,分离之后的语音质量得到了有效的改善。
其他文献
GSM-R系统是应用在铁路上的专用移动通信系统,对其可靠性的要求非常高。我国正处于大规模建设GSM-R网络的前期,在这个阶段GSM-R网络的通信质量和可靠性将对全国的GSM-R网络的
随着电子战和信息战技术的发展,非合作通信条件下扩频信号盲解扩成为扩频通信领域的研究热点,扩频信号伪码周期的盲检测和盲估计是实现盲解扩的前提。本文分别采用经典谱估计
随着网络技术的迅速发展,基于内容的图像检索已经成为信息领域的一个研究热点。但由于受到目前图像理解技术的局限,图像的视觉底层特征和高层语义之间存在着著名的“语义鸿沟
本文根据电视-指令引导总控系统的要求,分析和研制了其计算机系统组件。基于对电视-指令计算机系统控制和既定算法处理的不同需求考虑,设计了FPGA和ARM协同处理的计算机系统
本文通过对小高层住宅楼的结构类型、抗震能力以及经济适用性进行分析,发现钢筋混凝土剪力墙已经成为小高层设计的主要应用类型。小高层住宅楼的结构优化不仅仅局限在对结构本
本文以精确模拟各类水声信号的特征为标准,初步完成了一个较完善的多传感器水声阵列信号仿真系统的实现。 第一章,将仿真系统划分为多个功能模块,并说明了各个功能模块的相互
无线个域网(WPAN)可以提供短距离(1米—10米)各种数据率的连接,同时它的功率消耗很低,对于移动设备而言,这是非常重要的一个因素。值得注意的是,早在2005年3月,IEEE即已成立IEEE 8
目前,在计算机辅助语言学习(CALL)方面的研究已经取得了不少的成绩,其中,发音评估起到了非常重要的作用。然而,在汉语普通话发音的评估方面的研究还还相知甚少,而且他们大多
期刊
IEEE 802.16e标准为高速移动宽带无线接入系统制定了全球统一的规范。高效合理的无线资源调度算法不但能够满足无线城域网中不同的业务需求,还能够优化有限的无线资源,提高频谱