蒙古语长音频语音文本自动对齐方法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户：yangjianglong

【摘要】

：

基于深度学习的语音识别系统已经被广泛应用于各个领域,而声学模型都是以大规模的语音库资源为基础进行训练的。然而,目前蒙古语语音库资源相对较少,无法满足蒙古语大词汇量

【作者】

：

牛米佳

【出处】

：

内蒙古大学

【发表日期】

：

2020年01期

【关键词】

：

语音文本对齐音频切分语言模型音素对齐语音识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于深度学习的语音识别系统已经被广泛应用于各个领域,而声学模型都是以大规模的语音库资源为基础进行训练的。然而,目前蒙古语语音库资源相对较少,无法满足蒙古语大词汇量连续语音识别系统的需求,因此急需进一步扩充蒙古语语音资源库。人工录制语音库不仅花费大量的人力和物力,并且与实际使用场景会有所差别。在大数据时代背景下,从互联网和相关单位可以获得大规模的蒙古语长语音和对应文本数据,这些数据可以用来扩充蒙古语语音资源库。本文针对蒙古语电视剧音频,以语音识别技术为基础研究了蒙古语语音文本对齐任务。具体研究内容和创新点如下:首先,本文针对电视剧长音频语音文本对齐任务,实现了电视剧音频自动分割,并改进了对话切分算法。利用双门限端点检测方法将音频中的静音切除;并使用隐马尔可夫模型检测和删除在蒙古语口语对话中常出现的功能性副语言信息;使用基于贝叶斯距离矩阵进行了对话切分。实验结果表明,本文改进的基于贝叶斯信息距离矩阵对话切分方法比传统的基于贝叶斯信息对话切分方法误检率下降了4.22%。其次,本文提出了一种基于中间码循环神经网络模型(Recurrent Neural Network,RNN)语言模型自适应的语音文本对齐算法。该算法先将所有的蒙古文单词转换为中间码,并且在通用文本语料上训练了RNN语言模型。该算法用待对齐语料微调RNN语言模型,并提取待对齐预料的隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题特征输入到RNN隐含层和输出层。利用训练自适应RNN语言模型进行语音识别,将识别结果和剧本文本进行中间码的词缀切分,并以词干为单位进行对齐。实验结果表明,本文提出的基于中间码RNN语言模型自适应的对齐算法比基于n-gram语言模型的对齐算法(基线系统)召回率提高了7.95%,值提高了4.88%,对齐的效果有所提升。最后,本文提出了基于音素混淆矩阵的语音文本对齐算法。该算法将待对齐语音进行语音识别解码,生成音素序列;利用字母转音素模型生成待对齐文本的音素序列。同时抽取出一部分语音来统计蒙古语音素的混淆概率,生成了音素混淆矩阵,并根据混淆矩阵改进了Levenshtein对齐算法和Needleman-Wunsch对齐算法。实验结果表明,基于音素混淆矩阵的对齐算法的召回率比基线系统提高10.42%,值提高了2.97%。

其他文献

基于不同系统参数的异构签密算法及其在5G网络应用的研究

近年来,国内外信息泄露事件频发。在严峻的安全形势下,保证信息的安全传输显得十分重要。对需要传输的数据进行签名和加密可以保证数据的机密性和不可伪造性。签密能够在一个

学位

5G网络切片异构签密双线性对不同系统参数

氧化条件下C-O-H流体对橄榄石含水性的影响

H20和CO2是地幔～30～150 km深度范围内流体的重要组成部分,并可能强烈影响名义上无水橄榄石的OH含量。然而,已有的橄榄石加H实验所采用的缓冲流体几乎均未考虑CO2的影响。本项研

学位

含水性橄榄石高温高压实验模拟CO2物理化学效应

三种典型农田土壤外源Cd的稳定化特征研究

近年来,土壤镉(Cd)污染导致的一系列环境问题逐渐引起了人们的广泛关注。进入土壤中的外源Cd,经过一系列吸附-解吸、迁移-转化等物理、化学过程,Cd的有效性逐渐降低,稳定性逐

学位

农田土壤镉迁移分布稳定化

利用间歇曝气和过氧硫酸氢钾钠盐分别控制复合垂直流人工湿地的甲烷排放研究

人工湿地已被看成是甲烷(CH4)的排放源之一,但却是处理农村非点源生活污水的有效方法。甲烷是一种温室气体,甲烷对温室效应也有巨大贡献,其作用仅次于二氧化碳(C02)。因此,控

学位

甲烷排放控制复合垂直流人工湿地农村非点源生活污水风能、太阳能间歇曝气过氧硫酸氢钾钠复合盐

最大κ-Plex算法和极大κ-Plex枚举算法研究

团是图论中检测凝聚子图的重要概念之一,并广泛应用于人工智能和数据挖掘等领域。团要求其顶点间两两相邻,但是该限制条件在实际应用中过于严格,因此作为团的一种松弛形式,κ

学位

最大κ-Plex启发式策略极大κ-Plex分支限界

基于中轴变换的图形构造方法研究

图形构造技术是一种重要的图形设计手段,其不仅仅在计算机辅助设计和计算机辅助工程中有重要的应用,同时在其它很多工程领域中也有着不可替代的作用。当前主要的图形构造技术

学位

图形构造中轴变换参数化拓扑结构映射

技术进步对中国工业行业价值链长度的影响研究

技术进步对国际贸易分工模式具有基础性推动作用,随着技术水平的发展,国际贸易模式从产业间分工、产业内分工发展到产品内分工。当产品的不同生产工序为追求最低生产成本被配

学位

技术进步全球价值链世界投入产出表系统GMM

移动边缘计算网络的计算比特与安全计算能效优化

移动边缘计算技术为用户提供低时延高计算性能的计算服务提供了重要途径。然而,其面临两大技术挑战。首先,能量有限的移动用户难于长时间享受移动边缘计算的服务。其次,移动

学位

移动边缘计算资源分配无线能量传输非正交多址物理层安全

不同官能团修饰的碳纳米管与阿特拉津对水稻幼苗生长的影响

纳米材料的广泛应用必然带来其进入环境后的风险问题,是目前研究热点之一。有研究表明碳纳米材料会影响植物生长,还有研究表明碳纳米材料与常见的环境有机污染物的吸附作用很

学位

官能化多壁碳纳米管阿特拉津水稻幼苗环境风险

多重信号放大的电化学生物传感器检测人体血清tau-441蛋白研究

目的Tau蛋白是一类微管相关蛋白,可促进微管蛋白聚合,参与神经细胞骨架的构成。Tau蛋白有六种异构体,它们结构上的差异主要在于氨基末端区域（N末端）与羧基末端区域（C末端）的不同

学位

Tau-441蛋白电化学生物传感器多壁碳纳米管-还原氧化石墨烯-壳聚糖金纳米粒子血清样本

蒙古语长音频语音文本自动对齐方法研究

与本文相关的学术论文