基于双耳线索的单通道语音增强方法

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:TSSSSSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术的不断发展,语音增强算法也被广泛研究。一些传统的语音增强方法,例如谱减法,维纳滤波法,统计模型法等等在平稳噪声环境中取得了较好地增强效果,但是,由于没有考虑语音和噪声的先验信息,这些传统语音增强算法在非平稳噪声环境中的增强效果并不理想。为了解决这一问题,基于先验信息的语音增强算法应运而生,例如码书驱动算法等。该类算法在线下将语音与噪声的自回归系数训练成为先验码书,并以此作为语音和噪声谱形状的先验信息,之后在线上结合参数估计器估计模型参数(包括自回归系数和谱增益),并利用估计得到的模型参数构建维纳滤波器,最后,通过维纳滤波器实现语音增强。这类算法可以较好地处理非平稳噪声。但仍有一些不足之处。例如,这类算法通过对谱形状建模实现语音增强,忽略了谱细节的作用。导致算法不能抑制谐波噪声。此外,噪声的谱形状与噪声类型间较大的相关性使得噪声预分类成为增强过程中必不可少的一步。为此,本文提出了相应的解决方法。本文的研究工作包括如下两部分。(1)借助双耳线索编码(Binuaral Cue Coding,BCC)原理,本文提出一种基于双耳线索码书的语音增强算法。该算法中,语音和噪声的双耳线索作为其先验信息在线下被训练成先验码书,避免了噪声分类的问题。之后,该算法在线上结合加权码书映射(weighted codebook mapping,WCBM)算法估计纯净线索参数。最后,考虑到谱细节的作用,本文利用BCC原理设计出增益函数来实现语音增强,解决了传统的码书驱动类算法中无法抑制含噪语音谐波间噪声的问题。(2)针对WCBM算法估计纯净线索参数时不准确的问题,本文提出了一种基于深度神经网络的双耳线索语音增强算法。该算法采用深度神经网络(Deep Neural Network,DNN)估计纯净线索参数。相较于WCBM算法,DNN直接通过预增强线索参数估计纯净线索参数,拥有更高的准确性。本文采用在语音增强算法中常用的堆栈式自编码器作为深度神经网络估计纯净线索参数,解决纯净线索参数估计不准确的问题。本文采用语谱图,PESQ(Perceptual Evaluation of Speech Quality),对数谱失真,分段信噪比对所提语音增强算法进行了性能测试。测试结果表明,本文所提出算法的性能均优于参考算法。
其他文献
现代化国防建设对微弱机动目标检测及其运动参数估计提出了更高的要求。增加相参积累时间是提高雷达目标检测性能和参数估计精度的有效方法之一。然而,在长的积累时间下,目标
该文主要研究了图象形态学在图象编码中的应用,重点是基于终极腐蚀的二值图象编码方法(中心扩展法),提出了新的非骨架点判定定理,并提出了非终极腐蚀的概念和判定定理;提出一
长期以来面向实用化的话者识别系统的研究在国际及国内都受到了极大的关注和重视.该文以实用为目标,从系统结构简单、用户注册和使用方便着手,采用基于短语音(两个音节的汉语
该文一共分七个章节进行阐述.先简单介绍一下SNMP的发展、基本概念、特点,接着对管理的对象系统ADSL系统结构作了描述,然后提出了分布式管理的模型,开发的软件平台及开发过程
从20世纪70年代商用光纤通信通信问世以来,它在人们的生活中扮演中至关重要的作用,接入网是整个光纤通信系统中的重要组成部分,其中radio over fiber (RoF)和无源光网络(PON)
论文首先描述了掩蔽效应,探讨了多种感知音频编码标准的原理与算法,重点讨论了MPEG音频编码标准的发展过程与特点.有两种心理声学模型-模型1和模型2,论文结合MPEG-1等级Ⅰ音
该文首先对分集技术产生的背景,分集技术在工程和理论研究中的重要作用以及分集技术目前在国内外的研究状况作概要性总结.随后,文章对衰落信道的一般理论进行了讨论,给出了几
认知科学是一个探究信息在人脑中表示和转换的前沿性尖端学科。作为当前科学研究的热点,大量的相关科技文献被公开发表。在Pubmed上检索关键词cognitive,返回的文献数量达到287
在实际工程中,动态分离目标的电磁散射分析应用于多种场合,是目前目标特性电磁数值建模的研究热点之一,而当使用表面积分方程方法对其进行分析时,由于未知数过高,将导致矩阵方程所
信道编码是用来提高数字通信可靠性的重要手段之一。第二代数字移动通信系统中的信道编码采用卷积码,并用寻找最大似然路径的Viterbi算法译码,提供了一定的编码增益,但与仙农在