基于不同语义层级先验信息的单通道语音增强方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hz198119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活中,语音信号总是不可避免的受到背景噪声的干扰,进而影响人与人、人与机器之间的正常交流。因此,开展从背景噪声中分离出纯净语音的语音增强技术相关研究就显得尤为重要。经过数十年的发展,单通道和多通道语音增强技术均取得了重大进展。其中,单通道语音增强技术由于具有部署简单、对设备要求低等优点,因而受到企业和研究者们的广泛关注。单通道语音增强作为一个欠定问题,通常需要引入额外的先验信息才能使其求解成为可能。然而,目前主流的有监督增强方法则通过最小化重构误差的方式,来使模型隐含的学习语音信号中不同于背景噪声的时频特点,而缺少对纯净语音数据中先验信息的有效提取和利用,从而使增强后的语音因缺乏先验信息的约束而存在信号畸变、频谱过平滑等问题,进而影响人的听感质量和机器的识别准确率。针对以上问题,本文重点研究对语音不同语义层级上的先验信息进行提取,并将其应用于单通道语音增强任务中的方法,以提高增强性能。分别从音素级、谱特征级和信号级先验信息等三个方面展开研究。论文主要研究内容与创新工作如下:(1)在利用音素级先验信息方面,通过对音素类别的后验概率分布进行建模,来提取音素类别中所蕴含的语义先验信息。分别研究两种对音素类别后验概率分布建模与利用的方式。一是利用语音识别中的声学模型来建模,而后将含噪语音的音素后验概率分布图作为增强模型的条件输入,以限制增强模型参数的可行解空间。二是设计音素感知网络将语音增强和音素类别的后验概率估计联合学习、交替进行,进而使增强后的语音特征能够最大化对应音素类别的后验概率,从而提出基于音素类别语义先验信息的音素感知网络增强方法。实验结果表明,引入高语义层级的音素类别先验信息,能有效提高增强后语音的识别准确率、可懂度和听感质量。(2)在利用谱特征级先验信息方面,通过对频谱特征段的先验概率分布进行建模,来提取纯净语音特征所具有的时频相关性这一先验信息。通过纯净语音特征段生成器和判别器构成的对抗过程,使判别器能够对纯净语音特征段的先验概率分布建模;同时,在增强模型和判别器构成的另一对抗过程中,将增强后的声学特征输入到判别器中以判断其是否纯净。经过这种双重对抗过程,判别器能够学习到纯净语音谱特征的时频相关性,进而用来约束增强模型,使其能预测出与这种相关性一致的频谱特征,从而提出基于谱特征时频相关先验信息的双重对抗网络增强方法。实验结果表明,引入较高语义层级的谱特征先验信息,能够有效提升增强后语音的识别率。(3)在利用信号级的先验信息方面,以最大似然准则为目标,通过训练可逆流式网络,来对整个语音波形在给定声学特征下的条件概率分布进行建模,从而提取波形采样点间所具有的时域相关性这一先验信息;同时,以最小化重构损失为目标,通过训练降噪自编码器,来重构纯净语音特征;随后,将重构出的声学特征作为条件输入到训练好的归一化流式网络中,以生成增强后的语音波形,从而提出基于信号时域相关先验信息的可逆流式网络增强方法。另外,为减少降噪自编码器输出与可逆流式网络所要求输入之间的不匹配,提出将两者视为一个整体进行联合优化的训练方法。实验结果表明,引入低语义层级的信号时域相关先验信息,能够进一步提升增强后语音信号的可懂度和感知质量。(4)在利用信号级的先验信息方面,还从另一个角度出发,通过学习采样点间的时序依赖关系,来对语音波形的联合概率分布进行建模,从而提取语音信号所具有的时序依赖性这一先验信息;此外,又引入自监督的噪声分类器,通过对抗多任务训练的方式,来减少噪声对降噪自编码器中间表示的影响,从而提出基于信号时序依赖先验信息的自回归式网络增强方法。实验结果表明,引入语音信号时序依赖先验信息,能够使增强后的语音获得更高的可懂度和感知质量;使用大规模的训练数据以及自回归的建模方式,能够提高增强模型的说话人泛化性,而自监督的对抗多任务训练则能够带来更好的噪声泛化性。
其他文献
移动智能设备的高速发展和O2O本地生活服务营销模式的普及,对广告行业产生了颠覆式的推动。这轮爆发极大地促进了移动O2O广告的发展。专门为移动设备和移动用户习惯而打造的移动O2O广告,逐渐成为广大本地服务商户移动在线营销的最重要手段之一。如何能够在合适的时间、合适的地理位置给合适的用户推送相应的移动O2O广告成为广告主普遍关心的重要问题。因此开展情境因素对移动O2O广告效果的影响研究和预测研究具有重
充满危机和竞争的外部环境加剧了工作岗位的波动,无论是企业中的管理者还是一线员工,都容易产生工作不安全感。由于上司和员工会在工作中进行频繁的人际交互,因此上司的工作不安全感可能会通过上司的决策或者行为传递给员工,由此扩大工作不安全感在组织中的影响范围。组织行为领域将这种组织中高层级个体的感知、态度和行为下行传递给低层级个体的现象称为涓滴效应。然而,当上司的工作不安全感通过涓滴效应传递给员工后,企业却
灾害情景态势(Scenario)简称“情景”,是表达灾害的程度、范围和演化的基本描述,即在一个选定灾害情况下,表示致灾因子(如暴雨)、相关承灾体(如桥涵)、应对体(如应急救援队伍)和孕灾环境(如城市周边水系)特征的数据和信息集合及其走向。区别于一般灾害,级联灾害伴随多种灾害的发生,不同灾害具有潜在的关联关系,这使得其情景态势演化更加难以预测,在实施情景推演时需考虑多种复杂情形。面向城市级联灾害,如
给定目标在初始帧的标注信息,视觉跟踪旨在预测其在后续帧的中心位置和大小。由于目标缺少足够的先验信息,同时在跟踪中容易受到运动模糊、形变和遮挡等因素干扰,从而产生复杂的外观变化,这些都为设计精确高效的视觉跟踪方法带来了巨大挑战。视觉跟踪的核心在于建立鲁棒高效的目标表观模型。由于缺乏目标的先验知识,因此如何利用场景中的时空上下文信息进行目标表观的建模尤为关键。时空上下文信息由时域和空域上下文信息两部分
知识经济时代,综合国力的竞争本质是创新的竞争。党的十八大和《中华人民共和国国民经济和社会发展第十三个五年规划纲要》中指出:我国“创新能力不强”、“企业效益下滑”,因此“必须把创新摆在国家发展全局的核心位置”,“实施创新驱动发展战略”,尤其要“更加重视原始创新和颠覆性技术创新”,奋力实现技术创新的弯道超车。技术管理能力是突破性技术创新行为的重要影响因素。但目前无论在理论界还是产业界,对于技术管理能力
随着科技的发展和社会的进步,微型产品和微小零件在越来越多的领域获得广泛应用,作为微细制造技术之一的微细电火花加工技术,由于具有能够加工任何硬度导电材料的优异性能,已经成为微细制造领域最重要的加工技术之一。但是,在微细电火花加工中由于传统伺服系统的响应速度慢,容易引起频繁的短路和开路甚至动作故障,影响了加工效率和加工质量。为了提高伺服系统的响应速度,改善加工表面质量,在分析了微细电火花加工伺服驱动技
随着高新技术产业快速发展和创新复杂性的不断提升,企业需要同时兼顾能够为其带来持久竞争力的探索性创新和实现持续盈利效益的利用性创新,才能够维持持久竞争力。在知识经济和网络经济时代背景下,一方面,知识是企业开展技术创新活动的核心要素,高新技术企业注重自身知识基础的构建和配置,旨在核心技术的研发和自主创新活动的顺利开展;另一方面,企业边界日趋模糊,基于外部研发合作网络这一平台,各个利益相关者能够实现对外
城镇化已成为南半球发展中国家面临的新挑战,其资源和社会基础设施无法与前所未有的增长速度相匹配。城市化的部分原因在于城乡人口迁移、空间发展不平衡和自然人口增长。尽管城市化为地方增长提供了一个新的维度,推动农业基础向更复杂的技术型产业发展转变,但无规划的城市化所产生的后果必须得到足够的重视与关注。世界上的城市正在慢慢地蜕变为庞大而复杂的城市地区,对农村地区产生了巨大的磁吸效应。只要能够满足贫困农民移民
代理成本理论认为,公司对资本结构的决策对于提高组织效率至关重要,因为债务协议中的限制性契约可以监控管理层的支出习惯,从而促使公司进行有效的管理实践。然而,尽管债务可能会阻止公司做出不良投资,但研究表明,债务也可能会阻止公司做出优质的投资。因此理论表明,债务融资可能对公司绩效产生非线性影响。本文的第一部分分析了债务融资是如何决定组织效率的,并利用世界的主要经济体,即中国、日本和美国的数据,论证了公司
随着高超声速飞行器的快速发展,传统的防隔热材料已无法满足飞行器对于热防护材料防隔热一体化的技术要求,新一代防隔热一体化复合材料能够满足未来飞行器在高温、长时、大热流、高焓值、高动压使役环境中的需求。本课题针对高超声速飞行器的高温区对于新型防隔热一体化复合材料的迫切需求,提升复合材料的热稳定性,获取复合材料的关键性能,优化抗氧化涂层的设计和制备工艺,开展涂层抗氧化烧蚀性能研究,阐明涂层烧蚀机理和失效