基于迁移学习和语言模型融合的低资源语音识别研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:JJ415722591
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的不断进步,语音识别技术也在快速发展。目前,语音识别声学建模有两种框架:混合架构和端到端架构。端到端架构通过单一网络对目标函数进行训练和优化,避免了混合架构的模块化设计和独立性假设,具有联合优化和易于部署等特点。但端到端架构也存在两个问题:一是需要大量标注数据,二是噪声和方言问题。这两个问题会极大限制缺乏语音标注数据的低资源语种语音识别发展。本文针对端到端架构的这两个关键问题展开研究,旨在提高低资源语种语音识别在各领域的识别性能,主要采用迁移学习和语言模型融合等方法进行优化。本文以藏语安多方言作为低资源语种的研究对象,主要研究三个方面:端到端架构下的建模单元选择、迁移学习优化和语言模型融合优化。具体工作如下:1.在端到端架构下,如何选择建模单元是一个关键的问题。本文针对低资源语种的端到端语音识别问题,提出了利用字节对编码算法来改进建模单元的方法。传统的建模单元基于藏文音节或藏文字母,但由于训练数据有限,采用传统的建模单元会存在较多的界外词问题或者信息丢失问题。因此,本文提出采用字节对编码算法来自动生成建模单元,通过合并文本中出现次数较多的藏文字母,生成自动学习的建模单元。实验结果表明,采用字节对编码建模单元能够学习到更多的声学特征,同时建模数量又远少于传统建模单元,能够显著提升语音识别性能,最佳结果相对音节建模获得相对26.81%的性能提升。2.本文提出了一种基于自监督特征提取以及迁移学习的端到端语音识别方法,以缓解低资源语音识别因训练数据不足导致性能不够理想的问题。具体来说,在特征提取层面,本文选择使用普通话训练的Hubert模型作为工具,探索自监督模型特征提取对低资源语音识别的优化效果;在模型层面,基于迁移学习方法的思想,利用普通话训练模型的参数对安多方言模型参数进行初始化。结果表明,自监督特征提取和预训练模型初始化参数的方法相对基线系统分别取得了相对9.9%和11.9%的性能提升。3.在端到端语音识别的架构中,融合语言模型已被证明是一种有效的方法。端到端模型可以隐式地学习语言信息,并使用浅层融合来利用额外的语言模型的信息。然而,这种方法缺乏数学基础的支持。在语音识别中,通常认为源域(即训练场景)和目标域(即测试场景)共享相同的声学模型。端到端语音识别模型可以被简单地视为声学模型和语言模型的组合。因此,本文基于贝叶斯方法,探讨了在低资源语音识别中使用密度比法融合语言模型的效果。在目标域中,模型的得分可以表示为源域声学模型得分减去内部语言模型得分,再加上外部语言模型得分。实验结果表明,利用语言模型融合方法相对于基线系统取得了相对7.9%的提升。
其他文献
由于深度神经网络的出现,自动语音识别技术取得了重大进展。目前最先进的语音识别系统,在某些场景下的识别正确率,已经接近人类水平。然而,这类系统需要大量有标签数据进行训练,限制了语音识别技术在低资源语言上的应用。最近,自监督语音表征模型的研究变得火热,它仅使用音频数据进行预训练,无需配对的文本标签,在各种下游任务上取得了出色的表现。在此背景下,本文工作基于目前最流行的wav2vec2.0和Hu BER
学位
近年来,环境问题日益严重,事故灾难给全世界人民带来了巨大的生命和财产的威胁。我们需要在事故灾难发生的第一时间及时获取第一手的事故灾难信息,作出相应的应对策略,减少损失。事件抽取是信息抽取的一种,对于事件信息的挖掘与抽取具有极为重要的意义。在进行事件抽取任务中,中文的短文本信息在各个词语之间没有自然的停顿,并且中文词语还存在一词多义的现象,因此在抽取的过程中存在触发词与事件类型不匹配和一个触发词对应
学位
随着互联网的不断发展,社交网络已变成网民分享信息、共享知识的首要渠道。社交网络中的信息传播,极大的方便了新技术与新思想的推广。在交互过程中,一个人可以同时隶属于多个群体,这个人作为社区间的枢纽节点,会对信息的传播起到十分关键的作用,进而使网络拓扑结构发生改变。因此,基于社区结构的影响力分析在理解节点的行为特征、揭示网络传播动态以及分析网络拓扑结构具有至关重要的作用。下面为本文主要贡献:(1)在社交
学位
新型冠状病毒肺炎(COVID-19)的快速蔓延导致全球健康危机,给医疗卫生、经济、安全等各方面都带来了巨大的危害。新型冠状病毒的高度传染性、变异性和隐蔽性大大增加了疫情预防和控制的难度。快速检测并且对可能感染的患者进行隔离治疗是抑制COVID-19传播的有效途径。深度学习和医学成像的最新进展表明,计算机从医学图像中提取数据的信息能力取得了进步,进而通过构建计算机辅助诊断系统可以在对抗疾病的检测工作
学位
各大新闻网站、社交平台的文本信息数量与日俱增,自动文本摘要技术可以解决人们面临的信息冗余与快速阅读之间的矛盾,节省时间,提高效率。目前自动文本摘要技术主要分为抽取式和生成式,抽取式自动文本摘要对长文本比较友好,但缺少语义信息,生成式自动文本摘要可以生成新的句子,比抽取式摘要更灵活,但对于较长的文本,可能会因为截断而导致信息损失。本文针对以上问题,分别对抽取式和生成式自动文本摘要进行了研究,同时设计
学位
文本复述任务使用基于深度学习的自然语言处理技术,可以为生成出来的文本赋予多样性和创造性。其任务目标是让机器使用不同的措辞、表达,将原先的文本复述出来,该过程需要最大程度地保留原文本中的核心语义,并且保证生成的语句通顺。本文提出结合同义词词林和依存句法的词语复述生成以及基于命名实体识别和Laser Tagger的短句复述生成方法,通过学习数据样本之间的多样性及语句流畅度,在最大限度保留原句语义的情况
学位
随着语音识别技术的快速发展,端到端语音识别框架已经成为主流。但是,这种框架需要大量的标记数据进行训练,这对于低资源语言情况下是非常困难的。为了解决低资源语言训练不足导致模型性能下降的问题,本文基于半监督语音识别方法在藏语数据上开展了研究。主要的工作如下:(1)基于半监督学习方法的藏语语音识别研究。本文首先使用藏语数据训练基线模型,以确保半监督模型的可靠性。然后,利用半监督学习方法,充分利用无标签数
学位
随着互联网的普及,在网上欣赏和学习舞蹈成为一个必不可少的途径。然而,由于舞蹈视频网站的快速发展,信息过载的问题也日益突出。因此,在这种情况下,使用推荐系统来进行舞蹈推荐是一个有效的解决方案。深度学习技术作为一种有效的工具,可以解决传统推荐模型中的复杂特征提取和特征交叉问题。越来越多的研究开始重视召回阶段的重要作用,从而提升推荐系统的效率。因此,把推荐系统划分为召回和排序两个阶段,以期望在短时间内,
学位
肺栓塞是由各种栓子堵塞肺动脉而引发的肺部呼吸类疾病,由于其临床表现不明显,致使患者漏诊、误诊率较高。肺栓塞疾病具有较高的致死率,严重危害人们的身体健康,因此,对该疾病的早期诊断具有重要意义。SPECT肺灌注图像是目前诊断肺栓塞等肺部疾病常用的无创性检查手段,然而由于肺灌注图像存在空间分辨率低、个体差异大、显像区域边界模糊等问题,给肺栓塞疾病的诊断及定量分析带来了挑战。对于上述问题,面向SPECT肺
学位
大数据时代,短视频平台在社会生活中的占比越来越大,其内容涉及到社会新闻、文化娱乐以及电商营销等多个方面,短视频用户数量呈指数级增长。基于短视频平台,大量用户对各种各样的短视频自由发表自己的意见与看法,产生了海量的文本评论数据。对短视频文本评论数据进行话题检测和情感分析研究,可以在一定程度上正确引导社会舆论,了解民生民意,为商业营销计划和政府相关管控措施的制定提供一定的参考价值。本文主要工作分为以下
学位