基于深度学习的蒙汉混合语语音识别系统研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:ken331
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人文交流日益密切,双语或多种语言混合表示成为了一种常见的语言现象。在国际上,汉英、英德、英法等混合语言运用越来越普遍。在国内,维汉、藏汉、蒙汉等混合语言现象也越来越多。所以多种语言混合语音识别成为了语音识别研究领域中的一个热门课题。虽然汉语、蒙古语、英语等单语言语音识别系统已经达到了使用要求,并且汉英混合语音识别研究也较为成熟,但基于蒙汉混合语语音识别研究仍处于起步阶段。因此,本文结合蒙古语和汉语特点,建立了蒙汉混合语语料库,研究了建模单元选择、蒙汉混合语发音词典、声学模型和语言模型构建等内容,并搭建了蒙汉混合语语音识别系统。首先,本文构建了蒙汉混合语语料库,在此基础上研究了建模单元的选择,并建立了基于DNN-HMM声学模型的蒙汉混合语语音识别基线系统。同时根据TDNN和LSTM网络对时序依赖信息建模的优势,引入TDNN-LSTM网络对蒙汉混合语语音识别声学建模,进一步降低了词错误率。基于TDNN-LSTM混合的声学模型相比基线DNN声学模型、TDNN声学模型、LSTM声学模型词错误率分别下降了11.3%、5.0%、5.1%。其次,采用CTC-Attention混合端到端语音识别方法实现了端到端蒙汉混合语语音识别任务。在训练过程中,本文采用多目标任务学习方法训练模型。在解码搜索过程中,结合CTC和Attention解码器共同预测目标序列,并采用基于RNN网络的蒙汉混合语语言模型进一步提高识别效果。实验结果表明,基于端到端蒙汉混合语语音识别系统性能低于TDNN-LSTM的蒙汉混合语语音识别系统,其主要原因分析为蒙汉混合语数据稀疏导致模型欠拟合。最后,本文搭建了蒙汉混合语语音识别应用系统。主要包括客户端模块、系统服务模块、在线解码模块及系统性能测试模块。
其他文献
国防和军队的现代化与军队组织形态的现代化息息相关。党的十八大以来,我国将军队文职制度改革纳入军队人力资源改革之中。当前,随着国防和军队改革的不断深入,我国正处于军队现代化建设的关键时期,加上不断改进的军队文职人员制度,大批优秀人才涌入军营,活跃在国防和军队建设的各个领域,承担着教学科研等重要任务。党的十九大后,文职人员制度改革继续深化,2017年重新修订的《中国人民解放军文职人员条例》,标志着我军
“两会”报道作为我国具有代表性的重大主题新闻报道,关乎着新时代条件下媒体对党的路线、方针和政策的宣传引导,也关系着媒体能否拉近同新闻用户之间的距离,实现与用户的良性互动。数据新闻的可视化便为“两会”重大主题新闻报道提供了一种新的发展思路。本文在扎实梳理文献的基础上从数据新闻可视化的基本理论入手,区分相关概念,解释数据新闻可视化的定义,厘清数据新闻可视化的类型,阐述重大主题数据新闻可视化的生产流程。
美是人类永恒的追求,随着社会经济发展,生活水平提高,人们更加注重精神享受,对艺术和美的需求也体现在生活的方方面面,生活美学应运而生,它强调审美平民化以及艺术生活化,其研究对象就是活生生的生活。对于生活美学的体现与传播,短视频作为新型的艺术载体,无疑发挥了重要作用。据中国互联网络信息中心(CNNIC)最新发布的第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,我国短视频用户规模为8
人脸信息被用于各种验证场所,主要是因为相比于其他认证手段,人脸信息具有唯一性、实时性和难伪造性。跟机场、火车站等一些大型场所相比,住宅小区的住户容量较小,住户信息较稳定,可以更充分发挥人脸识别技术的优势。本文设计了一种基于卷积神经网络的人脸识别门禁系统,实现无接触、快速的门禁检测。本文主要对人脸检测、活体检测、人脸特征提取和对比等方面进行了学习与研究。采用核相关滤波算法(Kernel Correl
奶牛采食行为是奶牛活动的关键行为之一,反映奶牛的健康状态与饲喂情况等。传统人工的观测只针对个人牧场,而规模化牧场只依靠人工成本较高。近几年来,随着数字化技术与人工智能的不断发展,可穿戴设备运用在了各个领域中。畜牧业中运用该方法可降低人工与资金成本,增加效率,减小损失。基于此,本文提出了一种基于活动量数据与深度学习的方法对奶牛采食行为进行识别研究,通过采集活动量数据加以分析处理并运用深度学习等算法模
在信息爆炸的当下,挖掘有效信息成为巨大挑战,新闻媒体正是大众获取信息的重要渠道之一。而新闻文本分类、倾向性分析可适用于新闻线索收集、舆情监控、决策辅助、有害信息过滤、运营分析、专题分析及新闻推送等领域,能够有效帮助用户快速、准确地获取所需信息,帮助新闻媒体在茫茫数据中分析出规律和关联项,达到便捷快速处理新闻的目的。文本分类及情感倾向性分析目前在国内外研究较多,发展相对成熟,但是蒙古文相关研究的起步
随着社会媒体的发展,越来越多的用户通过微博来表达情感。因此,对微博中的情感进行挖掘有很大的应用价值。近年来,深度学习的技术在自然语言处理领域中取得了广泛的应用。所以本文将基于深度学习对蒙古文微博情感分析进行研究,具体工作内容总结如下:(1)由于蒙古文语料匮乏,本文构建了蒙古文微博情感分析语料库,选用NLPCC2014部分中文语料作为原始语料。由于原始语料包含大量噪音,需要对原始语料预处理。将清洗后
近年来,随着科技的发展,无人机技术的应用领域越来越广泛。无人机具有低成本、较强的移动性以及可以快速灵活地部署等众多特点。这些特点使得使用无人机辅助传感器网络完成环境监测数据收集任务成为了可能。使用无人机作为数据收集节点,可以拓宽节点的空间移动范围,更加适合复杂环境中的传感器网络数据收集任务。本文将传感器网络数据收集任务划分为单跳传输场景和多跳传输场景。在单跳传输场景中,初始状态下使用K-Means
场景文本的检测与识别是目前计算机视觉领域比较热门的研究内容,用于定位场景文本中的文本区域并识别其字符序列。场景文本中往往包含很多丰富的文本信息,这些信息可以帮助我们认知场景。场景文本的检测与识别可以被应用到很多领域,如无人驾驶、智能交通、即时翻译和视觉搜索等。虽然传统的印刷文本检测与识别技术已经较为成熟,但场景文本的检测与识别还存在很多难点,例如背景复杂、文本形式多变、文本图像透视曲率失真等。本文
随着近些年移动互联网技术的快速发展和智能手机用户群体数量的不断增长,出现了多种多样基于智能手机传感器的应用,这些应用已经融入到人们日常生活和工作的各个领域,给人们的生活带来了极大的便利。这些应用的实现离不开行为识别技术的研究,目前基于手机传感器的用户行为识别研究主要存在以下两个问题:一、大多数研究工作是基于单传感器即加速度传感器进行行为识别,没有充分利用智能手机内置的其他传感器进行融合识别;二、一