论文部分内容阅读
近些年来,随着互联网,移动网络及计算能力的高速发展,越来越多的,包括手机,平板电脑,智能电视在内的人机交互设备呈现爆炸式的增长。语音信号作为人机交互的媒介,受到了越来越多的关注。微软2010年推出的基于Kinect多传感器的家庭互动娱乐平台和苹果公司在2011年推出的Siri智能语音助理应用让普通消费者开始接受和关注智能语音通信和交互应用。而随着智能家居(例如亚马逊虚拟语音助手设备Echo、智能电视)、车载语音控制以及电话会议系统的种类繁多的新产品的不断涌现,语音技术的发展迈向了一个新的高度,其应用也从传统的近讲模式发展到近讲远讲并包的自由模式,因而也对语音信号处理带来了新的挑战。语音增强技术作为复杂环境中提取目标语音信号的有效手段,一直是研究热点之一。而作为实际应用中一个非常重要的组成部分,环境自适应的出发点贯穿于本文的所有章节。 传统的单通道/多通道语音增强方法在处理平稳噪声、非平稳噪声、相干噪声以及混响方面皆取得了一定的进展,多种时频信息、时空信息被应用于目标语音信号的提取。然而,在面对实际问题的时候,由于大多数算法基于先验的信号模型假设以及特定的应用场景下对信道的模型假设,方法往往不能够适应多变的环境和多种噪声的共同作用。特别是远讲情况下,混响的复杂特性使得传统的语音增强方法都受到了不同程度的约束,无论是封闭空间的混响大小还是声源/传声器距离都会影响方法的性能。本文从环境自适应的角度出发,针对混响环境中语音通信和语音识别两种应用,深入研究了语音增强算法的各个组成部分,引入对混响环境的感知机制,以谋求语音增强系统不同模块的不依赖环境的解决方案。 基于以上的出发点,本文主要研究工作及创新点包括以下几个方面: 1.研究了语音增强方法中的最基本的目标语音信号检测问题,提出了一种混响鲁棒的双通道目标语音信号检测方法。作为一个基本问题,目标语音信号检往往被作为已知信息赋予增强算法当中,而许多混响鲁棒的增强算法恰恰依赖于目标语音信号检测的性能。本文首先通过基于自由场空域滤波的理论推导,得出了时频域的针对不同频率的检测阈值;在此基础上,引入对环境的自适应模型,将应用场景推广到一般的混响场;针对传声器阵列空间混叠问题,提出了一种旁瓣抑制机制。综合以上方法,得到了更加准确的不同环境下目标语音信号检测性能。 2.研究了波束形成方法,提出了一种混响环境下基于时频掩蔽的非线性波束形成方法。非线性波束形成方法可以有效地抑制方向性干扰和扩散噪声,纳入时频掩蔽的基本概念,通过提高每个时频点时频掩蔽估计的准确性,基于贝叶斯准则,构建语音存在概率。时频域的信息和空间域的信息被同时用来提高传统谱幅度估计在非平稳多源环境下的性能,同时将混响考虑进来,更大限度地适应不同环境,提高了混响鲁棒性。该方法可以有效地提高语音质量和语音可懂度的性能。 3.提出了一种基于声学场景分类的谱增强框架下的混响抑制方法。系统辨识一直是语音增强方法的一个难点,基于谱增强框架的混响抑制方法往往由于可以兼顾加性噪声抑制从而更加具备实用性。针对谱增强框架中语音失真和混响抑制的折中选择,我们利用相干分析方法盲估计相干扩散比,并对声学场景加以分类,继而构建每个时频点谱增强增益函数,实现对混响信号的低失真滤波。该方法被证实从主客观评价上均可以实现性能的提升。 4.研究表明混响会影响语音识别率的情况,本文在提出的混响抑制方法的基础上,研究了输入信号、特征、训练数据,声学模型同语音识别率的关系。在证实混响抑制可以提高基于HMM-GMM模型的语音识别率的基础上,成功地构架了语音识别应用的前端。