基于深度学习的噪声鲁棒性语音识别算法设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hms0741
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日常生活中人类通过视觉、听觉等高级感知能力来接收信息,经过大脑的高效处理就可以转换为可以理解的信息。计算机存储和运算的能力惊人,但是并不能像人类一样直接理解接收到的视频、音频信息,而语音是生活中最常见且有效的沟通方式。人们开发出了语音识别技术,目的是让计算机可以“思考”人们所说的话,并将其变换为抽象等级较高的文字符号。得益于计算机性能的提高和深度学习的应用,目前干净语音的识别效果已经达到并超过了人类水平,在外围干扰条件下,转录误识率会激增,提高噪声环境下的语音识别性能是该项技术实用化的关键。本文探索了噪声环境下的语音鲁棒性识别方案,研究了结合语音增强模型的鲁棒性语音识别算法,利用神经网络学习带噪语音到转录文本的非线性映射关系,提升语音转录的准确率和模型的抗噪性,并将其应用到了项目中。主要工作包括:(1)研究语音增强算法,探索端到端的解决方案。针对低信噪比条件下相位信息损失严重的问题,采用端到端的思路对时域音频信号建模,使用UNet结构框架充分挖掘信号结构信息,通过堆叠多尺度的Block从不同视野挖掘高维特征的局部信息,将评估指标融合到训练过程中得到更加清晰的语音。(2)研究语音识声学建模方法,使用多层堆叠的CBRD单元来构建语音识别的声学模型,有效降低模型的复杂度,提升模型的训练速度,方便声学模型结构的调整。在此基础上研究构建语言模型确定文字逻辑上的前后关系,以此来修正语音识别转录的结果,使模型的转录结果更符合逻辑。(3)论文采用融合增强模型和识别模型的方案,基于已经训练好的增强和识别模型在带噪语音数据集上做迁移学习与联合训练,使得神经网络基于已有的权重做适应性调整,最大化两个模型之间的匹配程度,从而提升语音识别系统在噪声条件下的识别准确率和噪声鲁棒性。(4)研究民航机坪管制任务中陆空通话指令的鲁棒性识别,根据陆空通话标准构建特殊发音映射关系,实现对陆空通话指令的有效识别;为了更好的实现算法的成果转化和可视化展示,开发了适配的原型系统。
其他文献
声纹识别技术在司法鉴定、军事安全、金融防欺诈等多个领域得到应用,但是在实际应用环境中,各种各样影响语音质量的背景噪声,使得实际工程应用中的声纹识别系统效果达不到理想要求,成为限制声纹识别技术发展的重要因素。因此,论文围绕声纹识别技术在噪声环境下的识别率提升问题开展研究工作。受到基于神经网络的特征映射方法在语音增强以及鲁棒性语音识别领域相关研究的启发,论文将基于神经网络的特征映射方法应用在鲁棒性声纹
深度学习技术在科学计算领域和图像处理的应用,是目前机器学习研究与应用的热点之一。机器学习的有效应用涉及数据、算法、算力三个方面内容。目前研究与应用主要着眼于算法,但是对许多重要的应用领域,主要制约机器学习应用效果的是数据。特别对应数据量少,数据特征不足的应用领域,数据质量和规模无法与算法要求匹配。针对数据质量差和数据规模小的导致深度学习模型训练效果差或无法训练的问题,目前常用的数据增强方法有数据变
近些年来,联邦学习作为一种机器学习技术,受到了爆发式的关注。其核心思想在于:保护不同参与者的数据隐私安全性的同时,通过同态加密、隐私求交、交换中间数据等方式,尽可能充分地利用所有参与者的数据,来建立联邦学习AI模型,从而解决特定的任务。相比于分布式学习,联邦学习的参与者可能更加的广泛和灵活,包括:个人终端、机构、公司、数据中心和边缘服务器等等。并且参与联邦学习的各方只需要约定好接入联邦学习的数据维
声表面波(SAW)传感器利用声表面波绝大部分能量集中在基底表面的特点,可以制备出非常灵敏的气体传感器。聚丙烯酸(PAA)由于成本低、工艺简单以及材料本身含有大量羟基和羧基,因此非常适合作为声表面波传感器的敏感膜。本文制备了基于PAA和PAA/聚乙烯醇(PVA)的声表面波氨气传感器,研究了传感器对于氨气的检测性能。PAA表面含有大量的羟基和羧基,使其能够很好地吸附水分子和氨气。基于PAA制备的SAW
近年来,随着《中国制造2025》国家战略的全面推进,我国新能源汽车得到了大力发展。永磁同步电机由于具有结构简单、体积小、重量轻、动态性能好等优点,在新能源汽车领域被广泛使用为驱动电机。在对永磁同步电机进行矢量控制时,需要准确地检测转子的实时位置和运行速度等信息,通常是在转子的轴上安装机械传感器,其缺点是不仅会增加整个系统的成本,也会受到纯电动汽车复杂行驶环境的影响降低工作可靠性,因此研究永磁同步电
随着各类网络资源的指数式增长,搜索引擎的使用已经成为当今社会每个人最基本的技能之一,高效的信息检索模型也有着更加重要的意义。在排序过程中引入机器学习方法的排序学习是信息检索模型的一个关键组成部分,取得了十分优秀的效果,能够在很大程度上满足人们在信息过载的时代的检索需求。但排序学习模型将排序看作一个静态的过程,一次性将和关键词相关的文档全部输出。在实际的检索场景中,使用者和检索模型之间是存在交互的,
随着电子工业技术的不断进步与发展,各电子产品生产厂商对电子器件的需求量也在急剧增加。在自动化生产过程中,难免会出现存在内部物理缺陷(如气泡、空洞、裂纹及杂质等)的电子器件。早期,各生产厂商会采用人工排查的方式或图像处理相关的算法过滤存在缺陷的器件。然而,这些方法不仅耗时而且检测精度较低。随着深度学习的发展,使得利用该技术快速、准确地检测存在缺陷的电子器件成为一种可行方案。本文为了提升电子器件缺陷检
在自由飞试验过程中,风洞中模型的舵面偏角、姿态角以及迎角和侧滑角都是风洞中表示模型姿态的重要指标。但是风洞中现存的对各个指标的测量方法都存在一定的缺陷,尤其是对于迎角和侧滑角的测量,使用风标传感器测量时,会影响模型的气动特性。所以为了更加精确得对风洞中的模型参数进行测量,本文进行了基于Optitrack运动捕捉系统对模型姿态测量的方法研究。本文根据风洞试验要求,采用新型的光学运动捕捉系统—Opti
随着机器学习、深度学习研究的深入,越来越多的研究人员开始将工作重心转移到图结构数据学习的探索中,这主要是因为图结构数据是很多现实应用中天然的数据载体,例如社交网络、引文网络以及生物分子。这一研究热潮也导致了大量图学习模型的产生,例如图卷积神经网络、图注意力神经网络以及Graph SAGE。这些图神经网络也被广泛应用于各种实际应用中,例如节点分类、图分类以及网络对齐。虽然现有图学习方法在各类应用中取
互联网不仅深刻改变了人们生活、工作方式,也对许多传统行业产生了巨大的影响。例如,在线广告已经取代电视、报纸、广告牌等传统媒介,成为主要的广告投放模式。特别是结合大数据分析的广告精准定向投放已经被广泛部署到了各种电商、视频、社交网站,为平台方和产品方均带来了巨大的经济收益。作为广告实现精准投放的关键,点击率预测算法获得了来自学术界和工业界的持续关注。本论文对目前已有的各种点击率预测算法展开研究,特别