汉语语音识别技术及在语音分离中的应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:Adisc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和人工智能的快速发展,人与机器的信息交互需求不断提升,语音识别成为当今信息技术领域重要的应用技术。近年来,虽然语音识别系统的性能不断提高,但是实际应用场景普遍存在噪声,噪声会严重影响语音识别系统的性能。语音分离的目标是将说话人的语音从背景干扰中分离,是语音识别不可缺少的前端处理,具有重要的研究意义。本文基于“面向复杂环境的语音分离/识别技术”的课题设计研究目标,期望通过连续语音识别优化语音分离技术,提高复杂环境下的语音信息获取能力。本文的主要工作与创新点为:(1)汉语连续语音识别的实现。为获取语音分离所需的语音信号特征参数,本文将传统语音识别的过程拆分为语音切分和语音识别。本文分析了语音信号的时域、频域、倒谱域特征,研究了基于基音周期轨迹的浊音切分,结合端点检测技术与频带能量法实现了清音切分,随后根据汉语音节特征进行清音和浊音的组合,最终实现了汉语连续语音切分算法。该算法不依赖于模型,不仅能完成音节边界的界定,还可以获取语音分离所需的先验信息,相比同类算法性能较好。在此基础上,本文实现了基于VGG-16的声学模型和基于N元文法的语言模型,最终实现了汉语连续语音识别。(2)CASA语音分离的实现。本文利用连续语音切分算法获取基音周期轨迹与音节边界,通过计算基频与谐波,实现了基于CASA的单通道语音分离。该方法不依赖于模型,不需要获取语音和噪声的先验信息,理论上可应用于任何噪声环境。随后,本文进行了多种信噪分离方法的性能对比,结果表明CASA语音分离在非平稳噪声环境下具有较好的去噪声效果,并且证实了基于语音识别的清音重构算法对CASA语音分离的性能有着极好的提升。(3)CASA语音分离的优化。本文分析了CASA语音分离技术的难点与优化方案,探讨了基于语音识别的清音重构算法的不足。为实现分离语音的清音重构,使用分离语音训练声学模型,实验表明使用分离语音训练的声学模型在中低信噪比环境下具有更高的识别正确率。随后,使用分离语音的声学模型和语言模型优化清音重构算法,实验表明优化后的清音重构算法具有更好的噪声鲁棒性。(4)汉语语音识别及语音分离系统的设计与实现。整合本文较为成熟的研究成果,实现了一个能独立运行的系统,该系统可以完成语音切分、语音识别、语音分离等工作。测试表明,该系统运行稳定,工作正常。
其他文献
学位
学位
现今5G时代,人们对通信速率的要求也越来越高,如何提高信道容量和频谱利用率一直是无线通信的研究热潮。在众多方法中,轨道角动量(Orbital Angular Momentum,OAM)的研究脱颖而出。由于OAM电磁波的不同模态相互正交,且模态数具有无穷性,因此,其研究给无线通信提供了一个新的自由度,会极大地提高频谱利用效率。本文主要研究紧凑型宽带OAM天线阵列,主要工作内容如下:首先,提出了一种由
学位
学位
广播式自动相关监视(ADS-B)是一种用于飞机与地面基站之间通信的飞行器运行监视技术,由于其成本低廉和监视性能高效,被国际民航组织(ICAO)推荐为下一代航空监视的核心技术。为了扩大ADS-B系统的监视范围,星基ADS-B系统被提出用于弥补传统陆基ADS-B系统监视网覆盖范围小且受地形影响的不足之处,同时也带来了多普勒频偏和多信号交织等问题,因此对星载ADS-B信号解调技术的研究有重大意义和应用价
学位
高熵合金是近年来发展起来的一种新型多主元合金材料,与传统合金材料相比,具有独特的物理性质和力学性能,并有着重要的研究价值和广阔的应用前景。然而,由于高熵合金复杂的元素构成和广阔的成分调控范围,使得高熵合金的成分设计和性能预测仍受限于传统的“试错法”,缺乏可靠的理论支持。因此,合理地评估高熵合金的相稳定性并深入探究组元元素性质与合金力学性能的内在联系有助于具有理想性能高熵合金的设计。本论文主要利用了
学位
学位