基于实际环境下的语音识别前端预处理算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:coolcool1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号处理经过半个世纪的发展,已经开始逐步从实验室环境转向实际环境中的应用。尤其是近两年,各种语音相关产品在移动终端中的广泛应用更是让我们意识到了语音信号处理尤其是语音识别系统在未来人机交互中的巨大潜力。与此同时,语音自身携带丰富的信息,对于发现非法个人或组织的活动,获取有价值的政治、经济、军事、外交情报,维护国家和地区的安全稳定具有重大的意义。然而,实际环境中出现的各种干扰因素却限制着语音处理引擎的进一步发展。因此,本文针对实际环境中的各种加性噪声和卷积噪声,从语音端点检测和混响信号消除等两个方面出发来达到还原干净语音的目的,为语音识别引擎在军事、人机交互等各个领域的应用提供保障。内容包括以下六点:  (1)依据背景噪声与语音信号在特征上的差异,以及不同信噪比下背景噪声与语音信号区分度的差异,采用隐马尔科夫-高斯混合模型(HMM-GMM)提出了基于音素识别的语音端点检测算法。该方法的主旨思想就是将不同信噪比下的背景噪声假定为一个个独立的音素,与汉语中的其他音素分别建立高斯混合模型(GMM),以最大似然方法为准则,结合HMM-GMM模型,采用Baum-Welch算法对各个音素进行训练。在应用阶段,首先利用噪声估计算法对观测语音进行噪声能量估计,然后根据估计的噪声能量选取合适的GMM模型,最后采用Viterbi算法寻找出模型的最大似然,从而区分出观测信号的语音段和非语音段。  (2)考虑到基于HMM-GMM模型的语音端点检测算法存在着所需训练语料大、GMM阶数高的特点,提出了改进型多观测似然比测试(MOLRT)的语音端点检测方法。相对于传统的MOLRT算法,此改进算法存在如下三个不同点。首先,提出将无偏噪声估计算法用于背景噪声环境下的先验信噪比和后验信噪比估计。其次,提出了基于双阈值的判别方法,这是因为基于双阈值的端点检测方法可以根据两次判别来提高区分精度。最后也是最为重要的一点,我们根据当前帧各个频段的噪声功率谱对当前帧的阈值进行实时更新,从而使得我们提出的算法相对于传统的算法具有更好的鲁棒性。在阈值的更新中,这些不同频段的噪声功率谱是通过最小统计量算法估计得到。紧接着,提出了基于语音增强的语音端点检测算法。该算法考虑到强信噪比的基础上,端点检测的精度明显优于低信噪比的环境,因此在上述基于多观测似然比测试的端点检测前,首先采用维纳滤波器对观测到的语音信号进行滤波,再对降噪后的观测信号进行语音端点检测,从而得到更好的检测结果。  (3)提出了基于后期混响谱方差(LRSV)估计器的去混响算法。混响信号主要产生于密闭环境下麦克风所捕捉到的墙壁反射信号。本文所处理的混响信号来自于单麦克风,并且假设说话人与麦克风的距离随时可变。在该算法中,室内脉冲响应(RIR)通过一个满足高斯分布的随机变量和一个衰减因子进行建模。为了得到合理的并且具有更加鲁棒性的LRSV估计器,背景噪声被分割成直接噪声部分和混响噪声部分,从而推导出了带噪混响信号下的后期混响谱方差估计器,并由此建立起后期混响与观测信号的直接关系模型。  (4)提出了基于多后期混响信号的参数估计算法。上述的LRSV估计器中,参数κm的精确度直接影响着后期混响的抑制。因此,我们对现有LRSV估计器中的参数估计算法进行改进,不仅引入观测信号方差,而且利用迭代公式,将已估计的多帧后期混响谱方差引入到当前帧的参数估计中,从而得到更加平滑的估计参数。  (5)提出了LRSV估计器和最大似然的联合算法。考虑到在上述第四点中参数κm的精确度取决于前几帧的后期混响,而该参数又将应用于当前帧的LRSV估计中,可想而知,其中的估计误差在可控范围内将不可避免的产生逐级放大。因此,我们在基于上述估计器得到每一帧LRSV后,结合最大似然算法对该LRSV进行矫正,以期得到更好的去混响效果。  (6)将上述的所提出的一些理论算法应用于实际的项目--语音技术研究开发项目和基于实际环境下的语音信号处理技术项目。在基于实际环境下的语音信号处理技术项目中,我们具体分析了不同参数与阈值对VAD的影响,并得到一些合理取值范围。同时,将提出的LRSV估计器应用于混响环境下,得到了较好的效果。而在语音技术研究开发项目中,我们用所提出的VAD算法得到了语音命令和噪声的有效分离,并考虑航空语料中存在大量呼吸声的问题提出了进一步的处理方案。  本论文中提出各种算法研究都是围绕着实际的项目展开,如基于实际环境下的语音信号处理技术项目作为语音信号处理在互联网搜索中的应用使得所提出的算法具有一定的普适性;而语音技术研究开发项目针对语音识别在航空系统中的应用又具有特殊性。因此,将所提出的算法较好的应用在上述两个项目中充分说明了这些算法在实际环境的应用中具有较好的可行性和一定的应用价值。
其他文献
为了更好地培养实用创新型包装设计人才,文章对包装设计的教学流程进行了探索,提出了让学生先打好技术与理论基础,再通过临摹广泛汲取优秀作品的营养,进行理论体验,最后学会
本课题针对复杂背景下空中目标实时探测的应用需求,进行了红外中波/长波的双波段图像融合探测关键技术的研究。分析了空中目标及背景的红外辐射特性;构建了红外多波段图像融合
双目立体视觉测距技术是计算机视觉中研究的重点和热点。它的基本原理是用两台位置相对固定的相机,从不同的角度同时获取同一场景的左右图像对,利用视差来获取距离信息。经过多
随着光信息处理和片上光互连需求的不断增加,以及硅基光子器件与CMOS工艺兼容的特点,硅基光子学结合硅材料与光子学在国内外不断取得引人注目的重要突破,成为当前集成光学的研究
传输线是射频、微波集成电路中的一种重要无源器件,它被广泛应用于电路中器件间的相互连接。石墨烯是一种原子层厚的二维晶体,它具有很多优良的特性,例如极高的电子迁移率、微米
本文的内容是CMOS图像传感器(CIS)中光电二极管的建模和像素单元的Spice模型及其特性优化的研究。CIS以宽动态范围、高速度、高敏感度、高集成度、低成本等优势,在数码相机、
文章介绍了CAN总线通信协议及其与变频器的组网方法。 This article introduces CAN bus communication protocol and networking method with inverter.
在不同P水平下用黄褐土盆栽玉米和大豆,生长6周进行植株和土壤钼的测定,结果表明:幼苗吸收土壤本底钼与P水平相关极显著,呈二次曲线关系。施P200ppm以上,P对幼苗吸收积累钼有
1972—1983年采用以人工接种为主,自然诱发为辅的鉴定方法,对2550个品种(系)(其中粳稻2255份,籼稻295份)进行了多次重复鉴定,从中筛选出高抗抗源395份,已被杂交育种选用111
现代军事战略中,智能武器发挥了越来越重要的作用。智能装备系统的一般具有自动探测、自动识别、精确控制攻击范围等功能。导弹作为快速发展的智能武器之一,其控制系统中的激光