基于稀疏表示与联合字典学习的语音增强

来源 :苏州大学 | 被引量 : 4次 | 上传用户:FSM0225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类进行语言交流与信息传播的重要媒介。然而,在现实生活中,语音信号不可避免地会被各种类型的噪声所污染。被污染的语音严重影响了语音交流的质量,同时还会使人产生听觉厌恶和疲劳。因此,研究有效的语音增强技术显得尤为重要。语音增强目的是尽可能地抑制和消除被污染语音中的噪声,从而提高语音的清晰度和可懂度。传统的语音增强算法在平稳噪声环境下能取得较好的性能,而对非平稳噪声和类人声噪声的抑制能力有限。而现实生活中,非平稳噪声是普遍存在的,本文基于稀疏表示和字典学习理论,提出一种改进的区分性联合字典学习方法以改善语音增强效果。本文首先介绍了一种联合字典的语音增强方法,该方法主要分为两个阶段,分别是字典学习阶段和语音增强阶段。在字典学习阶段,利用语音和噪声样本分别训练语音字典与噪声字典,并形成联合字典。在语音增强阶段,利用具有相干性终止准则的最小角回归算法,实现语音与噪声的分离。在仿真实验中,将该方法与传统的语音增强算法进行对比,并验证了该方法的有效性。上述联合字典方法没有考虑两类字典在表示语音样本和噪声样本的区分能力。在字典学习过程中单独地对每一类字典进行训练,不可避免地会导致各类字典之间存在较相关的原子,从而在语音增强阶段产生混淆现象。为此,提出一种改进的区分性联合字典语音增强方法。区分性联合字典方法的主要原则是加强语音和噪声在对应字典上的表示能力,同时抑制其在非对应字典上的稀疏表示度,而非对应字典的干扰问题尤其难以克服,本文方法通过设置一个有效的相关性约束条件,降低了两类字典间的相关度。仿真实验表明,本文方法比传统联合字典的语音增强方法性能更好,更适合用于非平稳噪声的去除。
其他文献
随着大数据时代到来,Internet上图像信息的规模也迅速增加。大规模甚至超大规模图像的出现对图像加密技术提出了新的挑战。超大规模图像加密处理最大的难点是如何有效降低加
随着人类社会的不断进步,对于环境的使用方式也不断的变化,而在现今社会,环境已经不堪重负,在已有的科学技术的支撑下,如何使用科学技术为环境准确的把握防范时机并有效的分
教学机智是教师进行课堂教学时,面临复杂教学情况所表现的一种敏感、迅速、准确的判断能力,是教师运用已有的学科知识、教学知识知以及教学技能知识,解决课堂中的突发事件这种结构不良问题的综合能力。从上世纪90年代以来,我国学者对教学机智开展了广泛的研究,并且已经取得了相应的研究成果,但对于中学化学教师的教学机智的培养研究还很少见。本研究分为两个相互关联的部分。首先,运用自编的《中学化学教师教学机智现状及其
创新技术的应用在我们的世界急剧增加。今天,移动设备,如智能手机或平板电脑已成为我们日常生活中的必需品。大多数人喜欢使用移动应用程序来解决他们的日常生活问题,其中最
21世纪以来,物联网的迅速发展使得电子射频识别技术(RFID技术)在供应链管理中的使用也越来越广泛。RFID技术能够实现供应链的信息共享与产品追踪,并通过降低库存不准确、压缩
深度学习的发展日新月异,在普通神经网络的基础上,卷积神经网络应运而生,已然成为图像领域一类高效的识别算法。Le Cun设计了经典的卷积神经网络模型结构Le Net-5,它包括多个
随着社会节奏的加快和智能手机的普及,长时间的伏案办公和越来越普遍的“低头族”使得颈椎病越来越年轻化和大众化。颈椎病的普遍化与人体颈部的不良姿态息息相关,因此开展对
近年来,受到通胀压力、产能过剩以及外需市场萎缩等因素的影响,我国经济增速放缓。为了遏制房价过快上涨和地产投机现象,房地产市场依然实行严格的调控政策。严峻的市场政策
利用无线或有线网络将控制器、执行器、被控对象、传感器组成控制系统,实现资源共享,从而形成网络控制系统。由于带宽的限制、不同节点的竞争不可避免的形成时延、丢包以及数
咖啡碱,学名2,6-二氧1,3,7-三甲基黄嘌呤,是多种高等植物体内重要的生物碱,同时也是茶叶中含量最多的嘌呤碱。由于咖啡碱具有兴奋、助消化等功能,被广泛应用于药物、食品中。目前,市场上咖啡碱的主要来源是植物提取或化学合成的咖啡碱是,但这些方法都存在弊端。因此,利用微生物发酵成为生产天然无污染咖啡碱的新途径。然而,在构建工程菌发酵过程,由于咖啡碱的抑菌活性从而影响工程菌的发酵效率,使得咖啡碱得率有