混响环境下语音增强关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wuyongliang0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着互联网,移动网络及计算能力的高速发展,越来越多的,包括手机,平板电脑,智能电视在内的人机交互设备呈现爆炸式的增长。语音信号作为人机交互的媒介,受到了越来越多的关注。微软2010年推出的基于Kinect多传感器的家庭互动娱乐平台和苹果公司在2011年推出的Siri智能语音助理应用让普通消费者开始接受和关注智能语音通信和交互应用。而随着智能家居(例如亚马逊虚拟语音助手设备Echo、智能电视)、车载语音控制以及电话会议系统的种类繁多的新产品的不断涌现,语音技术的发展迈向了一个新的高度,其应用也从传统的近讲模式发展到近讲远讲并包的自由模式,因而也对语音信号处理带来了新的挑战。语音增强技术作为复杂环境中提取目标语音信号的有效手段,一直是研究热点之一。而作为实际应用中一个非常重要的组成部分,环境自适应的出发点贯穿于本文的所有章节。  传统的单通道/多通道语音增强方法在处理平稳噪声、非平稳噪声、相干噪声以及混响方面皆取得了一定的进展,多种时频信息、时空信息被应用于目标语音信号的提取。然而,在面对实际问题的时候,由于大多数算法基于先验的信号模型假设以及特定的应用场景下对信道的模型假设,方法往往不能够适应多变的环境和多种噪声的共同作用。特别是远讲情况下,混响的复杂特性使得传统的语音增强方法都受到了不同程度的约束,无论是封闭空间的混响大小还是声源/传声器距离都会影响方法的性能。本文从环境自适应的角度出发,针对混响环境中语音通信和语音识别两种应用,深入研究了语音增强算法的各个组成部分,引入对混响环境的感知机制,以谋求语音增强系统不同模块的不依赖环境的解决方案。  基于以上的出发点,本文主要研究工作及创新点包括以下几个方面:  1.研究了语音增强方法中的最基本的目标语音信号检测问题,提出了一种混响鲁棒的双通道目标语音信号检测方法。作为一个基本问题,目标语音信号检往往被作为已知信息赋予增强算法当中,而许多混响鲁棒的增强算法恰恰依赖于目标语音信号检测的性能。本文首先通过基于自由场空域滤波的理论推导,得出了时频域的针对不同频率的检测阈值;在此基础上,引入对环境的自适应模型,将应用场景推广到一般的混响场;针对传声器阵列空间混叠问题,提出了一种旁瓣抑制机制。综合以上方法,得到了更加准确的不同环境下目标语音信号检测性能。  2.研究了波束形成方法,提出了一种混响环境下基于时频掩蔽的非线性波束形成方法。非线性波束形成方法可以有效地抑制方向性干扰和扩散噪声,纳入时频掩蔽的基本概念,通过提高每个时频点时频掩蔽估计的准确性,基于贝叶斯准则,构建语音存在概率。时频域的信息和空间域的信息被同时用来提高传统谱幅度估计在非平稳多源环境下的性能,同时将混响考虑进来,更大限度地适应不同环境,提高了混响鲁棒性。该方法可以有效地提高语音质量和语音可懂度的性能。  3.提出了一种基于声学场景分类的谱增强框架下的混响抑制方法。系统辨识一直是语音增强方法的一个难点,基于谱增强框架的混响抑制方法往往由于可以兼顾加性噪声抑制从而更加具备实用性。针对谱增强框架中语音失真和混响抑制的折中选择,我们利用相干分析方法盲估计相干扩散比,并对声学场景加以分类,继而构建每个时频点谱增强增益函数,实现对混响信号的低失真滤波。该方法被证实从主客观评价上均可以实现性能的提升。  4.研究表明混响会影响语音识别率的情况,本文在提出的混响抑制方法的基础上,研究了输入信号、特征、训练数据,声学模型同语音识别率的关系。在证实混响抑制可以提高基于HMM-GMM模型的语音识别率的基础上,成功地构架了语音识别应用的前端。
其他文献
目前,随着无线网络通信技术的不断发展,用户对移动数据业务的需求越来越大。移动IP协议作为一种移动管理标准,使移动终端可以在不改变IP地址的情况下支持漫游,满足了移动业务的需
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
α-半乳糖苷酶(α-Galactosidase,EC3.2.1.22),也称蜜二糖酶,是一类能够催化水解末端含α-1,6-半乳糖苷键的酶类,包括线形和分支寡糖,多糖以及人工合成的底物,如蜜二糖、棉子糖、水
本文是在上述“科技部子项目”背景下,在分析总结现有研究成果的基础上,以科技部子项目需求为基础,针对十一种元数据标准的特点以及系统可扩展性和元数据互操作性等要求,兼顾图书
传统的基于MAP的语言模型自适应技术虽然在解决训练语料的数据稀疏问题上取得了很大的成功,然而该方法的前提是要求有一定量的主题相关自适应语料,然而在某些语音识别应用中,
针对数据仓库中多维数据的联机分析处理和数据挖掘一直是国内外的研究热点,它在企业决策支持中具有广泛的应用前景和巨大的应用价值。联机分析处理虽提供了多角度多粒度展现数
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
学位
当前XML已经成为Internet上各类应用系统之间数据表示和交换的标准,越来越多的关系数据库应用系统采用XML作为标准格式来发布和交换数据,研究关系数据和XML数据之间的转换方法,
本文是“H.264图像编解码器SOC芯片”项目的子项目“基于DM642的H.264编码器的设计和实现”。本文应用于视频监控系统,主要任务是在基于TITMS320DM642数字媒体处理器的硬件平