基于计算听觉场景分析的单声道混合语音分离研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:yaya1717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实际环境中,语音信号在到达听觉系统时往往伴随着其它噪声。一个能够有效的从干扰源中分离出目标语音的信号分离系统对于自动语音识别、说话人识别、音频检索以及数字内容管理等应用有着十分重要的意义。   目前,对混合语音信号的分离研究大体上集中在盲源分离及计算听觉场景分析这两个领域。本文主要从计算听觉场景分析领域对单声道混合语音分离算法进行了深入地研究和探索。所取得的主要工作成果和创新点如下:   >从感知质量的角度对语音分离系统的优化准则进行了探索性的研究,并取得初步的成果。证实了感知质量在语音分离工作中可以作为优化的准则。在此基础上,探讨了语音的感知质量这一高层知识与计算听觉场景分析的结合问题,提出了一种基于计算听觉场景分析和语音客观质量评估的单声道混合语音分离系统。该系统将语音客观感知质量作为听觉场景分析及语音分离的优化目标和准则,成功地将语音客观感知质量评估机理应用到语音分离系统中,提高了分离语音的质量。   >针对ITU-T P.563语音客观质量评估标准在使用方面的限制以及计算量大的缺点,提出了一种采用基于时域包络信息的客观质量评估方法来替代P.563算法的混合语音分离系统。该系统在几乎不降低系统分离性能的前提下,大大降低了算法运行所需的时间和资源消耗。   >针对许多计算听觉场景分析系统无法很好地解决多说话人混合语音信号分离的问题,提出了一种基于多基音跟踪的单声道混合语音分离系统。该系统充分利用了多基音跟踪研究的最新成果,通过将多基音跟踪得到的目标语音和干扰语音的基音轨迹信息结合到分离系统中,有效地改善了分离系统对多说话人混合语音的分离效果。   >针对大部分计算听觉场景分析系统无法解决清音信号的分离问题,提出了一个基于计算听觉场景分析和因子最大矢量量化的可以同时分离语音中的清音和浊音的混合语音分离方法。该方法通过使用机器学习技术从独立的纯净说话人语音数据中学习分组线索,并借助一个因子最大矢量量化模型来推断计算听觉场景分析再合成阶段所需的掩蔽信号,实现了目标说话人和干扰说话人语音的分离。实验表明,该方法能够有效地解决清音信号的分离问题,对两个说话人混叠语音也有很好的分离效果。此外,该系统还可以作为自动语音识别系统的鲁棒前端,提高语音识别系统的性能。
其他文献
近年来,随着机器人技术的迅猛发展,机器人在各种领域获得了广泛的应用。以排爆,消防等机器人装备为代表的各种极限环境作业机器人也逐渐进入应用领域,用来代替人类在很多危险环境
纤维增强复合材料图像中的量化信息是材料性能分析和材料设计的重要数据来源。论文以两类主要的反映材料结构的图像:纤维长度分布图像及相界面纤维图像作为研究对象,对其图像分
企业管理最重要的是生产管理,而生产调度是生产管理的核心内容和关键问题。生产调度的主要任务是使企业在有限资源约束下产生最大的经济效益。生产调度的核心问题是模型和算法
本文结合了上海自动化工业仪表研究所的多参数智能变送器研制项目,研究并开发了与之配套的HART与MODBUS转换接口。 首先,从协议模型结构、数据传输方式等方面介绍并分析了MO
电动汽车空调较之以往的汽车空调系统无论在驱动方式还是控制策略上都产生了巨大的变化,其工作状态更为复杂,控制方式更为多样,需要建立精准的检测系统对其控制过程中涉及的关键
随着网络技术的飞速发展和下一代网络技术概念的提出,越来越多的人希望通过IP网络进行包括话音、视频、数据在内的多媒体通信。SIP(Session Initiation Protocol,会话初始协议)就
随着无线通信技术,无线定位技术以及计算机技术的发展,WIFI通信技术实现低能耗、低成本、安全可靠的井下无线通信。利用无线定位技术在地下金属矿中建立监控系统,对井下人员设备
实验作为自动化学科的教学与科研的重要手段,对控制理论的验证和应用具有重要的意义。而在实验系统中,实验软件又是研究人员与机器装置进行人机交互的重要前端,对实验的操作
随着全球信息网络的形成和经济一体化进程的加速,现代企业面临诸多的机遇和挑战。企业间的竞争逐渐演变成供应链之间的竞争,供应链管理成为企业竞相追逐的焦点。供应链协调优化
随着我国经济的飞速发展,人类对水的需求量逐日剧增,输水管道运输的安全运行成为管道安全监测的一项极为重要的任务。由于一些自然因素和人为因素不可避免地造成管道泄漏,这