蒙古语长音频语音文本自动对齐方法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:yangjianglong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习的语音识别系统已经被广泛应用于各个领域,而声学模型都是以大规模的语音库资源为基础进行训练的。然而,目前蒙古语语音库资源相对较少,无法满足蒙古语大词汇量连续语音识别系统的需求,因此急需进一步扩充蒙古语语音资源库。人工录制语音库不仅花费大量的人力和物力,并且与实际使用场景会有所差别。在大数据时代背景下,从互联网和相关单位可以获得大规模的蒙古语长语音和对应文本数据,这些数据可以用来扩充蒙古语语音资源库。本文针对蒙古语电视剧音频,以语音识别技术为基础研究了蒙古语语音文本对齐任务。具体研究内容和创新点如下:首先,本文针对电视剧长音频语音文本对齐任务,实现了电视剧音频自动分割,并改进了对话切分算法。利用双门限端点检测方法将音频中的静音切除;并使用隐马尔可夫模型检测和删除在蒙古语口语对话中常出现的功能性副语言信息;使用基于贝叶斯距离矩阵进行了对话切分。实验结果表明,本文改进的基于贝叶斯信息距离矩阵对话切分方法比传统的基于贝叶斯信息对话切分方法误检率下降了4.22%。其次,本文提出了一种基于中间码循环神经网络模型(Recurrent Neural Network,RNN)语言模型自适应的语音文本对齐算法。该算法先将所有的蒙古文单词转换为中间码,并且在通用文本语料上训练了RNN语言模型。该算法用待对齐语料微调RNN语言模型,并提取待对齐预料的隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题特征输入到RNN隐含层和输出层。利用训练自适应RNN语言模型进行语音识别,将识别结果和剧本文本进行中间码的词缀切分,并以词干为单位进行对齐。实验结果表明,本文提出的基于中间码RNN语言模型自适应的对齐算法比基于n-gram语言模型的对齐算法(基线系统)召回率提高了7.95%,值提高了4.88%,对齐的效果有所提升。最后,本文提出了基于音素混淆矩阵的语音文本对齐算法。该算法将待对齐语音进行语音识别解码,生成音素序列;利用字母转音素模型生成待对齐文本的音素序列。同时抽取出一部分语音来统计蒙古语音素的混淆概率,生成了音素混淆矩阵,并根据混淆矩阵改进了Levenshtein对齐算法和Needleman-Wunsch对齐算法。实验结果表明,基于音素混淆矩阵的对齐算法的召回率比基线系统提高10.42%,值提高了2.97%。
其他文献
近年来,国内外信息泄露事件频发。在严峻的安全形势下,保证信息的安全传输显得十分重要。对需要传输的数据进行签名和加密可以保证数据的机密性和不可伪造性。签密能够在一个
H20和CO2是地幔~30~150 km深度范围内流体的重要组成部分,并可能强烈影响名义上无水橄榄石的OH含量。然而,已有的橄榄石加H实验所采用的缓冲流体几乎均未考虑CO2的影响。本项研
近年来,土壤镉(Cd)污染导致的一系列环境问题逐渐引起了人们的广泛关注。进入土壤中的外源Cd,经过一系列吸附-解吸、迁移-转化等物理、化学过程,Cd的有效性逐渐降低,稳定性逐
人工湿地已被看成是甲烷(CH4)的排放源之一,但却是处理农村非点源生活污水的有效方法。甲烷是一种温室气体,甲烷对温室效应也有巨大贡献,其作用仅次于二氧化碳(C02)。因此,控
团是图论中检测凝聚子图的重要概念之一,并广泛应用于人工智能和数据挖掘等领域。团要求其顶点间两两相邻,但是该限制条件在实际应用中过于严格,因此作为团的一种松弛形式,κ
图形构造技术是一种重要的图形设计手段,其不仅仅在计算机辅助设计和计算机辅助工程中有重要的应用,同时在其它很多工程领域中也有着不可替代的作用。当前主要的图形构造技术
技术进步对国际贸易分工模式具有基础性推动作用,随着技术水平的发展,国际贸易模式从产业间分工、产业内分工发展到产品内分工。当产品的不同生产工序为追求最低生产成本被配
移动边缘计算技术为用户提供低时延高计算性能的计算服务提供了重要途径。然而,其面临两大技术挑战。首先,能量有限的移动用户难于长时间享受移动边缘计算的服务。其次,移动
纳米材料的广泛应用必然带来其进入环境后的风险问题,是目前研究热点之一。有研究表明碳纳米材料会影响植物生长,还有研究表明碳纳米材料与常见的环境有机污染物的吸附作用很
目的Tau蛋白是一类微管相关蛋白,可促进微管蛋白聚合,参与神经细胞骨架的构成。Tau蛋白有六种异构体,它们结构上的差异主要在于氨基末端区域(N末端)与羧基末端区域(C末端)的不同