复杂场景下语音识别技术的研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ZAQWSX12344321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度神经网络学习的大背景下,语音识别技术(Automatic Speech Recognition,ASR)作为人工智能、模式识别等领域中重要的一门技术,得到了迅猛发展。随着智能设备的普及,语音识别技术被广泛的应用在日常生活和工作中。然而当人们在复杂的现实场景中使用语音识别技术时,例如特定的行业领域、噪音环境等场景,语音识别面临更大的挑战。因此,越来越多的专家和学者关注复杂环境下的语音识别技术的研究。本文研究了两种复杂场景下的语音识别技术。特定领域的集外词(Out-of-Vocabulary,OOV)识别是端到端语音识别所要解决的问题。特定领域的集外词是指那些仅在某个专业领域下高频出现的词汇。在常规语音数据集下训练的声学模型对集外词的识别效果欠佳,而集外词语音数据集的收集代价高昂。正确的引导语音识别系统准确的识别集外词是一件很有挑战的事情。其次,背景噪音混杂的场景也是语音识别经常面对的复杂环境之一。引入视觉模态辅助语音识别的音视频语音识别方法(Audio Viusal Speech Recognition,AVSR)是解决声学模型在噪声场景下的性能骤降问题的有效方法。视觉模态不会受到噪声污染,音频模态在干净背景下识别更精确,合理的音视频双模态融合方法是解决音视频语音识别的关键。复杂场景下的语音识别技术研究可以推动语音识别应用在更多的现实场景。本文主要围绕在复杂场景下的端到端语音识别技术进行深入研究,主要研究内容如下:(1)针对缺乏特定领域的集外词语音数据集,且当前语音识别系统不能理想的识别出集外词的问题,本文提出了一种新的集外词语音识别系统,首次通过引入拼写纠正(Spelling Correction,SC)方法解决集外词识别问题,集外词纠正模型是基于Transformer网络构建,纠正声学模型的识别结果中集外词错误。同时,设计了一种对齐损失,提高声学模型的识别结果中集外词部分的纠正效果,减少非集外词部分误纠正。此外,本文优化了纠正模型的训练方法,使用合成语音识别结果和真实语音识别结果共同训练集外词纠正模型,降低不同语音的识别结果的错误分布不一致对纠正模型的影响,避免了之前训练方法中声学模型发生偏移从而影响声学模型的实际应用。实验结果表明,本文提出的集外词语音识别系统可以很好的提高集外词语音的识别效果,且不会影响日常语音的识别效果。(2)针对现有的音视觉语音识别方法,在进行多模态融合时,或者忽略音频模态对视频模态的特征提取过程中的影响,或者忽略Transformer编码过程中模态之间的互补性的问题,本文提出一种新颖的基于Transformer的音视频识别方法,在编码过程中,两个分支编码器分别对音频模态和视频模态进行特征编码,信息交互块逐层的获取对方模态的互补信息,最后在解码过程中进行特征融合。同时,为了促进编码过程的信息交互,引入交叉重构损失。实验结果表明,本文的方法可以很好的提高音视频识别效果和模型的鲁棒性。本文对复杂场景下的语音识别进行了研究,探索出有效的方法来解决相应的问题,并且经过实验证明了方法的有效性和鲁棒性,最终实现语音识别系统在复杂场景下稳定可用。
其他文献
计算机的普及让当今社会处于信息化时代,而信息化时代的特点在于信息以爆炸式速度产生,每天都会有大量的信息产生,如何存储这些高密度信息是大量研究人员一直关注的重点。典型的存储设备已经在存储领域长达数十年之久,虽然其已经能够满足普通的存储需求,但对于高密度存储需求的今日,新材料才能够挑战信息存储面临的物理和理论上的限制。其中MXene作为一种热点材料在学术界和工业界都取得了较大的关注,在电学、热学和储能
学位
课程思政建设是顺应时代发展的需要,在时代发展过程中创新思政教育的理念,无疑是未来教育发展的重要趋势。学前教育进行课程思政建设是全国思政教育中的关键一环,在引领学生树立正确的价值观、道德观方面发挥着重要作用。以学前教育专业中的幼儿美术与手工课程为实践平台,开展课程思政教学改革研究,提升学生文化实践能力,引导树立正确的世界观、人生观、价值观,可以为其未来从事教师事业打下坚实的思想和文化基础;总结课程思
期刊
最近几年越来越频繁发生的突发公共事件对政府应急管理能力提出了更高的要求,应急管理成为社会上比较热点的话题。智库作为一个政策咨询研究机构,在国家治理和对外交流等方面发挥着越来越重要的作用,随着最近几年国家对智库建设工作的不断推进,智库迎来了高速发展时期,智库建设也向着高质量现代化和服务国家总体发展战略导向而快速发展,在这一关键性发展阶段,智库建设虽然态势迅猛但是由于种种外界环境因素的影响,智库整体建
学位
随着手机摄像头像素的不断升级,社交媒体的广泛应用,美图软件的普及以及社交功能的推出,技术不断打破对现实的再现,侵入了日常审美领域,改变着人们的交往模式和生活方式,创造了美颜社交的新时代。美颜社交作为一种新型社会交往方式,对交往双方的心理和行为产生影响,是推动个人与社会变迁的重要因素。本研究以青年群体为研究对象,从拟剧理论视角切入,运用问卷调查、深度访谈、和参与式观察等方法,通过对青年群体基于微信朋
学位
随着人们日常生活和生产的逐渐发展,对于更高速度和高质量的通信技术的需求日益增大,因此5G(5th generation)通信技术应运而生。作为5G中的关键技术之一,极化码于2008年被首次提出后,第一次在理论上被证明了能够达到香农极限,因此受到众多学者的关注,同时被5G技术所采用,应用于控制信道。在5G系统中,大规模多输入多输出(Multiple Input Multiple Output,MIM
学位
食品安全问题一直是百姓关心的话题,如何让百姓买的放心、吃得安心,一直是食品安全监管工作的重点,这关系到百姓的生命健康。我国于2009年出台了《食品安全法》,此后,经过多次修订,不断完善。2014年,各地将工商局、食药监局、质监局进行合并,组建了市场监督管理局,对食品进行从生产到销售全面的各环节监督管理。从上述我国食品安全监管工作的历程可以看出,党和国家对于此项工作一直非常重视。食品安全监管工作是各
学位
足迹信息是犯罪现场的重要痕迹信息,在刑侦领域扮演着重要的角色。目前对于足迹图像的研究主要针对赤足足迹,然而在犯罪现场得到的足迹一般是鞋印足迹,鞋印足迹相较于赤足足迹存在纹理不同、赤足特征被掩盖等问题,因此如何通过鞋印足迹得到对应人物的赤足足迹,也是足迹领域需要解决的问题。针对上述情况,本文使用深度学习技术将光学鞋印图像反演成赤足图像,主要研究内容为以下四个部分:(1)构建光学足迹图像数据集。使用光
学位
人类文明在历史演进的过程中,死亡总是与其相伴相生,在不同文化形态的影响之下,死亡也逐渐演化出具有差异性的文化模式,不同文明在如何面对死亡方面也发展出了独特的丧葬文化。数千年以来,在中国民间,一套相对固定的殡葬模式慢慢形成,但受封建思想和宗教影响,传统葬礼仪式存在铺张浪费和迷信活动等问题。新中国成立后,为了解决殡葬过程中的这些问题,政府开始倡导殡葬改革,逐步推行各种相关政策,以此来移风易俗,改变以往
学位
“十四五”时期是宿州市深入打好污染防治攻坚战、实现生态环境根本好转、建设美丽宿州的关键期。本文在总结宿州市“十三五”时期大气污染防治工作成效、存在主要问题及“十四五”面临形势分析的基础上,主要提出“十四五”时期宿州市治理对策,以达到明显改善宿州城市大气环境质量的目的。全文主要包六个章节,第一章节为绪论,包括宿州大气污染防治源头治理的选题背景以及对于宿州市的重要意义。第二章节分为大气污染治理一些基本
学位
随着科技的进步和生活水平的不断提高,人们对于自身的生命健康更加关注。在日常生活中,个人是否患有高血压疾病是不易察觉的,但是其带来的危害数不胜数。因此,如何高效的检测血压,提前预防高血压的危害是人们不断研究的问题。人工检测血压需要专业的操作人员和专业的操作手法进行检测,而且不能每时每刻检测出血压值。近年深度学习技术的发展,使得基于卷积神经网络进行无创血压预测这种高效的检测血压方法成为可能,然而此方法
学位