【摘 要】
:
语音识别技术是人机交互应用的基础,在机器翻译机、人机对话问答系统和智能会议实时字幕等系统上具有重要的应用价值。目前,越南语的语音识别研究工作相对较少,主要使用英语、法语等主流语言的基于深度神经网络隐马尔可夫的传统混合模型,近期,基于序列到序列的方法逐渐成为学术界的研究热点。然而,不同于主流语言,越南语是一种稀缺资源,面临语音训练语料库稀缺的问题,难以在当前需要大规模训练语料的语音识别模型上取地很好
论文部分内容阅读
语音识别技术是人机交互应用的基础,在机器翻译机、人机对话问答系统和智能会议实时字幕等系统上具有重要的应用价值。目前,越南语的语音识别研究工作相对较少,主要使用英语、法语等主流语言的基于深度神经网络隐马尔可夫的传统混合模型,近期,基于序列到序列的方法逐渐成为学术界的研究热点。然而,不同于主流语言,越南语是一种稀缺资源,面临语音训练语料库稀缺的问题,难以在当前需要大规模训练语料的语音识别模型上取地很好的效果,其次,越南语是一种单音节声调语言,最小结构单元是音节,在语音识别模型中,一般采用音节、音素作为越南语的识别单元,由于对越南语音节划分界限的定义模糊,使得这些识别单元存在不合理的问题。最后,越南语的每个音节具有6个声调,不同声调代表不同的意思,从而使得越南语词、实体组合方式复杂多样,具有不同声调的相同词、实体其语音发音相似,当前的声学模型缺乏对语音内容的理解,存在难以区分越南语词、实体多粒度相似发音的问题,使越南语的语音识别效果不佳。针对以上问题,论文主要完成了以下研究工作:(1)基于多粒度纠错的越南语语音识别训练语料库构建针对越南语语音训练语料库稀缺的问题,首先,分析越南语语音和文体数据获取的策略,利用爬虫技术从互联网上获取一部分语音-文本平行语料相和相对较多的越南语文本单语数据,语音-文本平行语料经过去重、提取音轨、切割存储等预处理操作后存储到数据库,目的是得到带有噪音环境的真实语音,越南语文本单语数据经过去重、去噪等预处理后得到干净的单语文本数据,目的是为后续扩充语料做准备。其次,在安静的环境下,我们采用录音设备人工录音一部分越南语语音,目的是得到干净的真实语音。最后,我们采用语音合成技术将干净的越南语文本合成与之相对应的语音,得到语音-文本平行语料,目的是扩充越南语语音训练语料库。实验结果表明,通过网络爬取、人工录音和语音合成技术构建的语音训练语料库能够满足语音识别模型在真实应用场景下对训练语料库的基本需求。(2)基于子音节的越南语语音识别方法针对越南语识别单元划分不合理的问题,分析越南语特点,引入越南语的音素、字母、音节、子音节和词五种多粒度建模单元探索,提出一种基于子音节的划分越南语的方法。为后续语音识别多粒度检错纠错研究工作找到最适合的识别单元。首先根据越南语的组成单位元音、辅音和六个声调构建72个字母字典,然后根据字母字典对训练文本数据拆分为辅音、音调集两部分较小的子音节单元进行建模。最后,实验结果表明,相比基线模型,提出方法的识别效果更优。(3)基于多粒度纠错的越南语语音识别方法针对当前模型难以区分越南语相似发音序列问题,提出一种基于多粒度纠错的越南语语音识别方法。目的是对越南语语音识别结果进行词、实体识别错误检测并对识别错误的词、实体纠正,使得最终的模型输出结果符合语音的表达内容,提升模型的语义表达能力。在基于(1)的构建的语音训练语料库上训练语音识别模型,根据识别结果标注词、实体识别错误的多粒度平行语料,然后采用(2)中的基于子音节的建模单元对训练语料的文本数据建模,训练时融入多粒度进行解码。实验结果表明,对语音识别结果检测多粒度错误并融入多粒度纠错明显提高了语音识别模型对句子的语义表达能力。(4)基于多粒度纠错的越南语语音识别原型系统基于上述相关理论研究,搭建了基于多粒度纠错的越南语语音识别原型系统。该系统主要针对越南语的语音识别,系统的功能模块包括越南语语音的输入、越南语语音转写、输出功能以及将训练好的语音识别模型部署应用等。
其他文献
随着三维测量设备的更新换代和计算机数据处理技术的快速发展,三维扫描技术能够快速准确的获取物体表面的点云数据信息。基于多线激光的三维扫描技术,因其适用环境广泛、设备安装方便、易于商业化开发等优点,被广泛地应用于点云数据的采集工作中。初始的点云数据需要通过点云数据处理技术进行加工,提取点云数据中各种不同的特征信息,才能满足人工智能、逆向工程、工业自动化等各个领域的应用需求。本文针对基于多线激光稀疏点云
近年来,图像融合在信息融合,计算机视觉和机器学习等新兴科技领域中发挥着至关重要的作用。在一些机器视觉任务中,现有的成像传感器设备仍然存在技术上的局限性,使得摄像机的镜头只能聚焦在自然场景中特定景深或一定距离内且具有高对比度和清晰度的物体上,否则目标就会变得模糊。因此,为了可以精确地评估输入图像的模糊度,识别出尽可能多的目标和细节信息以及高清晰度区域,并将这些有效的数据结合起来生成信息量更加丰富的图
随着我国智能制造发展的趋势,人机智能交互成为核心任务之一。在人机智能交互过程中存在文本数据的读取和传递,这些数据通常包含大量长文本信息。为了高效地进行关键信息传递和交互,需要筛选和总结其中的重要内容,使用的方法称为生成式文本摘要提取。然而,现在文本摘要的方法主要用在短文本摘要提取,但是对长文本还鲜有研究。文本的长度影响网络模型生成摘要的质量,长文本包含更多的信息,扩大输入文本长度,能够获得较完整的
随着人类科学技术的进步,记录事件发生的时空事件数据越来越丰富,基于事件类型的时空序列模式挖掘研究在诸多领域有着广泛应用。由于领域中的先验信息未知,参数模型会对模式匹配精度造成影响。此外,由异常数据表征的事件异常模式通常发生于一定时空范围内,考虑数据属性间相关性且适用于长度变化序列的时空异常区间检测方法是发现时空事件序列模式的一个重要组成部分。针对事件序列模式挖掘的异常检测和触发模式匹配两方面问题,
由于现代无线通讯技术的迅猛发展,频谱资源匮乏的问题变得越来越严重,尤其是随着5G的普遍应用资源匮乏问题也愈加明显。如何在现有频谱资源的基础上提高其利用效率成为当前的研究重点。因此D2D(Device-to-Device)作为一项终端设备直通技术受到通信界研究者的持续关注。D2D技术可以极大的提升系统资源的利用率,缓解基站(Base Station,BS)的压力,让系统拥有更快的传输速率以及更大的容
随着国内外众多巡天观测计划的进行,我国载人航天工程重大科学项目—光学舱地面应用系统研发工作也进入了重要的收尾阶段,预计将采集多达PB级别的海量观测数据,并经过科学的处理手段生成了典型的天文数据产品天文星表。天文星表为天文研究工作者解决天文异构数据提供重要解决方案的同时为锥形检索的实现提供了重要抓手。天文科学家通常以某个特定区域来进行专项研究工作,对他们来说,如何准确、高效地进行天文星表的检索是天文
校企合作是髙职院校和企业开展的一种合作办学模式,从本质上是以市场需求为导向的人才培养方式。通过高等职业院校与企业共享资源的方式,分析建立多方参与的教育教学人才培养制度,培养针对社会发展和企业用工所需的专业技术人员。本文对昆明冶金高等专科学校的“校企合作”专业进行研究。发现传统的教育模式优先以讲授理论知识为主,而对实践技能的培养不够重视,学校毕业生工作能力与企业人才需求之间存在适配差异的问题,文中采
新人力资本理论将能力的构成从单一的认知能力拓展至二元的认知与非认知能力,大量实证研究已表明,非认知能力对个人发展有着不亚于认知能力的作用。中国家长为了让子女实现社会阶层的跃迁,对他们的学业成绩更是倍加关注。受传统人力资本理论框架的影响,中国家长认为影响学生考试成绩的关键因素是与计算、推理、记忆储存与提取相关的认知性能力,他们不仅没有考虑非认知能力在子女考试成绩影响因素中的重要性,也忽略了产生贫困代
相比于脑电(EEG)而言,由功能性近红外光谱(fNIRS)驱动的脑机接口(BCI)技术作为一种颠覆传统的脑机交互方式,有望为严重影响生活质量的下肢功能障碍患者提供一种可选的主动康复训练方法,因而得到越来越多的研究人员的青睐。现有的基于fNIRS-BCI多为离线研究,并且分类性能有待提高。本文不仅在离线研究的基础上提高了基于fNIRS-BCI系统的分类准确率,还在此基础上搭建了在线系统,对下肢运动想
随着电子信息技术的飞速发展,高导热金属基复合材料在电子封装领域备受关注。其中,石墨/铜复合材料具有热导率高、密度小且易于加工等优点,是一种应用前景良好的电子封装散热材料。但由于石墨与铜两相不润湿、不反应,界面结合能力很差,导致石墨/铜复合材料导热性能难以达到预期要求。同时,包括热压烧结在内的多种复合材料制备工艺受到设备、模具和生产成本等因素的限制,无法实现大规模的工业生产应用。而微波烧结作为一种新