深度学习在四川方言语音识别中的应用研究

来源 :西华师范大学 | 被引量 : 0次 | 上传用户:kfsoft2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的快速发展,语音识别技术也有了长足的进步。语音识别技术的愈渐成熟,加之各地文化的互相影响,使用方言进行人机语音交互已经成为了研究的新方向。四川方言以其独特的魅力活跃在各社交媒体和网络平台,并且四川方言的使用人数已达数亿人,研究四川方言语音识别对于了解巴蜀文化和变迁有着一定的积极作用。语音识别不仅是大热的研究方向,也是科研的研究重点,研究人员对语音的识别和辨识做出了大量研究。尽管已有关于方言语音识别的研究,但是研究四川方言语音识别的屈指可数。本文主要使用卷积神经网络、门控循环网络和隐马尔科夫模型、Transformer模型进行四川方言语音识别研究,构建四川方言语料库,提出基于改进的卷积神经网络和门控循环网络的语音识别方法,具体的研究内容如下:针对四川方言没有公开的标准语料库的问题,设计了四川方言语料库,语料库数据提取自四川本土方言影视剧,分别对其进行格式转换、切割、标注、核对后,将所有数据划分为3个数据集,包括2个训练集和1个测试集,训练集分别包含约201分钟、30分钟的语音数据,测试集的语音数据时长为20分钟。通过该语料库实现了从语音音频到普通话文字标注的对应。针对四川方言语音识别研究稀少的问题,提出了一种基于改进的卷积神经网络的语音识别方法。通过深度卷积神经网络提取语音语谱图的特征信息,然后再结合CTC解码和隐马尔可夫模型映射到文字。在四川方言语料库上进行训练和测试,并与其他方言识别的结果进行对比,实验结果显示,本文提出的算法降低了四川方言语音识别的错词率,提高了识别率。本文提出一种基于改进的门控循环网络语音识别方法,该方法使用GRU作为声学模型,使用Transformer作为语言模型,通过对语音片段的预处理、特征提取、CTC解码、Transformer模型等的处理后,实现了从音频序列到文本序列的映射过程,在四川方言语料库上进行测试,实验结果显示,本文提出的算法在准确率上再次提升,并且优于领域内其他的相关算法。
其他文献
有源电力滤波器(APF)控制效果的好坏直接影响补偿性能。传统PI控制器不能够无静差地跟踪谐波指令信号,且抗干扰能力差,参数整定困难。在d-q坐标系下,通过对前馈解耦的电流内
生物活性肽是一类能对人体产生有益生理作用的肽类化合物,近年来,大量的科学实验证明其来源于一些有益人体健康的食物,并且能提供超出其营养价值的特殊活性。许多体外和动物
隐匿性乙型肝炎病毒感染(occult hepatitis B virus infection,OBI)是特殊的HBV感染形式。由于OBI携带者血液中HBsAg呈阴性,因而临床上很少被识别,也未纳入乙肝诊疗的范围。
随着建筑行业的蓬勃发展,基坑支护工程在越来越多的复杂地质及社会环境中被应用。根据应用的需要,随着施工技术的发展及施工设备的更新,各种新型的基坑支护的施工方法被开发
梳理数字图像取证技术的脉络,介绍数字图像取证技术的主要分支,对数字图像取证技术的基本原理及其应用进行深入的分析和探讨,对数字图像取证技术今后可能的发展方向和市场前
科技发展推动了现代媒体艺术的繁荣。摄影、摄像是高中美术现代媒体艺术模块中极具代表性的教学内容,教学过程不仅要让学生掌握高科技设备的操作应用,而且要通过影像摄制活动
以高烈度区某教学楼工程设计为例,依据建筑使用功能和抗震要求,该建筑物采用粘滞阻尼器的消能减震设计方案,时程分析结果表明,粘滞阻尼器可大量耗散地震动能量并显著降低结构
教师现场学习是教师专业自主发展的有效形式,而行动学习则是教师现场学习过程中所能采用的一种重要方式。行动学习以问题解决为导向、团队合作为基础、质疑反思为手段,突出学
建立校园学籍管理系统是信息化发展的必然趋势,是学校现代化管理和校园数字化的标志。校园学籍管理系统将使学校各部门的原有业务和管理体系相对独立的现象得到有效整合,减少
化石燃料的过度消耗和随之而来的环境污染迫使各国寻求可再生、可持续发展的新能源及绿色、高效的能源储存技术。超级电容器作为最重要的能源存储器件之一,具有功率密度高、充电快速、循环寿命长和安全性好等优点。为了进一步满足超级电容器储能材料的绿色可持续发展的需求,开发生物质基储能材料及超级电容器成为研究热点。其中,木材储量丰富、可再生、具有分级多孔结构,以其为基体制备储能材料及超级电容器将为能源储存领域的可