基于CRNN-CTC的语音关键词检测方法及系统设计

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hh0745cn12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习的快速发展,极大地提高了语音关键词检测的性能。然而受限于语言本身复杂度高、标注语料缺乏、标注不准确等原因,客家话等许多小语种在关键词检测上的研究仍然不足,语音智能应用较少。本文选取江西赣州地区的客家方言,开展客家话的语音关键词检测研究。本文提出一种使用卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)和联结主义时序分类器(Connectionist Temporal Classification,CTC)的语音关键词检测方法,并首先在普通话上验证该方法的有效性,随后应用到客家话上,最后搭建了一个语音关键词检测系统。本文的主要工作包括:1.在基于RNN-CTC的方法基础上,结合卷积神经网络,提出一种基于CRNN-CTC的关键词检测方法。在AISHELL-2普通话公开语料库上的实验结果表明,本文所提出的CRNN-CTC的方法在平均每个关键词每小时0.5次虚警时,12和20个关键词检测任务的错误拒绝率分别为4.82%和5.38%,相比于RNN-CTC的方法分别相对下降了38.83%和58.81%,并且所需训练时间更短。2.针对普通话的发音特性,系统地比较了汉字、有调音节、词语、声母加有调韵母四种建模单元的差异。实验表明普通话使用声母和有调韵母时,检测性能最佳。3.收集并整理了一个约447小时的客家话语料库;将CRNN-CTC的方法拓展到客家话上;考虑到客家话语言本身的特性,探索其最优建模单元选择与普通话是否一致,详细分析了客家话与普通话之间性能差距的原因。实验结果表明,在上述四种建模单元中,与普通话不同,客家话使用有调音节时的性能最好;在平均每个关键词每小时0.5次虚警时,12和50个关键词检测任务的错误拒绝率分别为12.43%和11.88%。4.为提高客家话语料库的纯度,在CRNN-CTC的方案基础上,设计一种基于加权编辑距离的语音样本质量评价指标,该指标根据关键词的虚警和漏检数量进行加权,并融合了模型在不同训练时期的解码输出,用来筛选出最有可能存在标注错误的样本。5.搭建了一个可以多路语音并发处理的关键词检测系统,该系统对外开放API请求接口,支持实时和非实时两种关键词检测模式。经测试,在没有GPU的普通计算机上,系统每秒钟仍能处理约60秒的语音数据。
其他文献
绝缘纸作为电力变压器的绝缘材料和支撑材料,其安全稳定性是避免电力变压器故障的重要因素,也是保证电网安全运行的关键。电力变压器中的绝缘纸多为纤维素绝缘纸,存在耐热性差、易燃、易老化以及力学性能弱的缺点,同时在沿海湿热环境下,由于其抗水性不足导致纤维吸水润胀,大大降低了绝缘纸的力学性能和使用寿命。国内外通常采用酚醛树脂增强纤维素绝缘纸,但大多使用醇溶性酚醛树脂,在生产和使用过程造成大量有机溶剂的污染和
蛋制品行业普遍存在保质期不高的问题,尤其是对于煮蛋产品来说,其在常温下的保质期一般不超过六个月,这主要是由于蛋制品尤其是禽蛋凝胶易被高温破坏,从而使得产品出现质构软化、吸水、发黄浑浊等不良的感官现象。针对这个问题本文提出用二价金属盐溶液加热处理禽蛋凝胶的方式提高蛋液凝胶的强度以使其能耐受高温对其的破坏。主要结论如下:(1)对四种鲜禽蛋贮藏过程中的品质变化进行了探究及比较,结果显示:经过43d的常温
人群行为建模是指对人的决策和移动等行为进行建模,从而获取人群行为特性的过程。人群行为建模具有广泛的实际应用场景,包括异常行为检测、公共场所布局设计优化、应急管理等。人群行为建模的一个关键问题是如何自动设计出可靠的人群行为规则。行为规则赋予了人群行为模型可解释性,提高了模型的可靠性,是模型投入后续应用的基础。然而,现有的人群行为规则设计主要依赖专家通过反复调试的方式手动设置,设计过程繁琐耗时,而且依
疫情不仅打破了居民原本的生活节奏,也变革着其原有的购物习惯,其中最明显的现象之一就是蔬果生鲜购买方式的规模式线上转移。研究以此为切入点,采用“理论综述-研究设计-实证研究-结论分析”的思路。首先对以往研究进行述评,将影响蔬果生鲜网购行为的因素归纳为居民的社会经济属性、主观态度及行为和相关建成环境。研究设计阶段则结合疫情因素与以往研究,使用结构方程模型,对疫情期间蔬果生鲜网购行为的影响机制提出假设。
当今社会,气候变化成为人类面临的全球性问题,减少温室气体排放成为全球各国的共识。2021年全国两会期间,碳中和、碳达峰被首次写入政府工作报告,也成为全社会关注的焦点。在此背景之下,节能减排势在必行。值得一提的是,除了二氧化碳外,甲烷排放同样是造成全球气温升高的重要因素,因此也日益成为社会关注的焦点。天然气广泛应用于生产生活,其中的主要成分甲烷(CH4)化学性质稳定,可长时间存在于大气环境中。就单分
钙钛矿太阳能电池因其优异的光电性能,受到学术界和工业界的广泛关注,在广大科学工作者的不懈努力下,在短短的10年内,单节钙钛矿太阳能电池的光电转化效率已经从3.8%提升到25.5%。然而,在钙钛矿太阳能电池技术的发展历程中一直存在两大问题,一是电池器件光电性能的可重复性差,二是器件的稳定性达不到商业化的标准。针对以上存在的两个问题,本论文主要进行了两个部分的研究:第二章部分,通过研究钙钛矿前驱体溶液
变电站作为操作电压等级变化的枢纽,保证变电站内的安全规范作业是电网安全稳定建设十分重要的一环,传统的站内作业安全监管依靠人力,然而单纯依靠人力进行监管则存在监管效率低下,人力成本高,极易出现监管盲区问题。近年来,深度学习发展迅猛,越来越多的目标识别、检测技术可供利用,本文以电力系统变电站中作业区域为研究场景,针对变电站场景内电力作业人员爬梯这一行为,对作业人员爬梯状态识别算法进行了深入的研究,首先
目的:心房颤动(Atrial fibrillation,AF)是临床上最常见的心律失常之一,可导致血栓栓塞和心力衰竭等并发症,使患者致死和致残。其发病率随着年龄的增长而增加,衰老是AF的独立危险因素。辅转录激活因子p300,同时具有乙酰转移酶活性,在调控细胞周期、分化和细胞凋亡中起着重要作用。我们的前期研究显示p300可通过调控衰老相关纤维化参与AF的发病机制,但p300是否通过调控心房肌细胞的电
21世纪,军事科学技术得到了极大的发展。从当前的军事技术革命发展态势看,在未来战争中,电子战将成为信息战的重要组成部分。微波毫米波技术在电子战中扮演着至关重要的角色,因而受到了众多学者的广泛研究。但是,目前单个固态器件的输出功率随着频率的升高而降低,到了毫米波频段已经难以满足应用的需求。因此,为了获得大功率毫米波信号,旨在把各路功率信号进行合成的径向功率分配/合成器成为了研究的热点。本论文主要以高
过压、过流、过热等现象导致电力电子变换器在短时间尺度上失效已成为影响其可靠运行的关键问题,然而现有基于单一尺度的建模和计算方法,无法准确地描述短时间尺度的失效过程,制约着电力电子变换器的特性分析研究。因此,考虑多个尺度的电力电子系统联合建模与特性分析成为近年来的热门话题。本文为解决电力电子变换器短时间尺度上精确建模与特性分析的问题,在国家重点研发项目的支持下,开展了以下研究工作:1、针对现有电力电