基于深度学习的蒙古语情感语音合成系统的研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:sheabc000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术是人机交互中重要环节之一,是一种将文字内容转换为与之对应的语音信息的技术。随着深度学习技术的快速发展,目前已有很多可以合成高质量的中性语音的方法。为了让合成语音更加拟人化,越来越多的研究员对如何合成富有情感表现力的语音展开了研究。近年来,随着蒙古语智能信息处理技术的快速发展,基于端到端的蒙古语中性语音合成技术已经达到了实际应用水平。但是蒙古语情感语音合成的研究仍处于起步阶段,蒙古语情感语音合成技术的研究对促进蒙古语言文字智能化发展具有重要意义。本文研究内容如下:1.构建了蒙古语情感语料库。针对目前蒙古语情感语音数据稀疏的问题,本文构建了包含中性、高兴、生气、悲伤、惊奇、恐惧、厌恶以及瞌睡等8种情感的女性声音共6.1小时,包含高兴和生气情感的男性声音共1.3小时,包含高兴和悲伤两种情感的儿童声音共2.27小时的蒙古语情感语料库。2.提出了基于参照语音的蒙古语情感语音合成模型。在基于端到端的蒙古语中性语音合成模型基础上,通过引入参照编码器和变分自动编码器来提取参照语音中的潜在变量信息,其中包含情感、语速、语气等,从而实现了情感可控的蒙古语情感语音合成模型。在模型训练阶段,采用迁移学习技术,将蒙古语中性语音合成任务迁移至情感语音合成模型中,通过使用大量非目标说话人的中性蒙古语语音对模型进行训练得到预训练模型,再使用少量目标说话人的情感语音数据集对模型进行微调,得到情感可控的蒙古语情感语音合成模型。实验结果表明,使用女性、男性和儿童声音合成的蒙古语情感语音MOS值分别为3.70、3.56和3.73。由此可见,该方法可以合成不同情感的语音。3.搭建了蒙古语情感语音合成系统。本文搭建了基于客户端/服务器(Client/Sever,C/S)架构的蒙古语情感语音合成系统,将基于参照语音的蒙古语情感语音合成模型部署在该系统中,从而用户可以根据需求使用该系统合成不同情感的蒙古语语音。本文使用Flask框架构建了蒙古语情感语音合成服务,设计并实现了基于Android系统的蒙古语情感语音合成系统。
其他文献
场景文本识别(Scene Text Recognition,STR)是指识别自然场景图像中的文本。印刷文本大多经过排版,其背景单一、清晰度高。相较于印刷文本,识别各类场景中的文字,其难度更具挑战。目前,场景文本识别研究存在以下问题:第一,使用较为广泛的编-解码器结构的识别模型,大多以LSTM(Long Short-Term Memory)作为解码器。由于LSTM是多个重复模块串联组成的链式结构,只
学位
“强基计划”是回应国家战略需要、在反思自主招生基础上探索拔尖创新人才选拔与培养相衔接的人才培养模式。由于“强基计划”自身的制度障碍、家长和考生认识不到位等原因,高校“强基计划”战略“遇冷”。在分析“遇冷”基础上,提出一系列改进举措,包括:高校要制定多元化录取方案,改革考试评价体系;强化衔接教育,贯通人才培养模式;健全保障机制,助力政策落实;完善监督举报机制,提升政策执行效能等实施路径。
期刊
在新医改背景下,如何在公立医院自身发展中构建夯实基础的地基,如何进一步提升公立医院人力资源管理机制的长久性,可持续性发展问题,成为公立医院亟须解决的重要课题。人力资源管理的长久性、稳定性、可持续性,在一定程度上影响着公立医院内部结构整体布局及外部影响力,影响着公立医院今后的发展方向及医疗质量服务水平。激励机制作为公立医院重要的“资产”组成部分,在人力资源管理中如何将激励机制有效应用于公立医院发展实
期刊
在自然语言文本中存在着大量的因果关系,因果关系挖掘任务在信息抽取、关系推理以及事件预测等研究领域都起着至关重要的作用。随着深度学习的崛起,因果关系研究已从传统的模板匹配和机器学习方法,发展为训练神经网络实现抽取,不仅可以识别因果语句,还可以通过序列标注方法获取文本中的因果关系对,并且深度学习技术训练的神经网络模型可以显著地提升抽取准确率。同时,通过序列标注得到的因果关系可以更好地用于构建因果关系网
学位
水平基因转移是基因在亲缘关系较远或无亲缘关系的物种之间的横向移动,是物种进化中经常出现的一种网状进化现象。系统发生网络是一种网状结构,可用于表示物种间的网状进化关系。构建系统发生网络是识别水平基因转移事件的重要方法之一。本文重点研究了基于系统发生网络的水平基因转移事件的识别方法,具体工作如下:(1)深入研究了系统发生网络构建过程中使用的最大简约准则。现有的最大简约准则(Maximum Parsim
学位
在线公交车乘客数信息不仅可以提升城市公共交通的服务质量,还可以优化乘客的出行计划。WiFi嗅探以非侵入的方式收集移动设备发出的探测请求帧,所以可以被用来监测公交车乘客数。与其它基于非WiFi嗅探的方法相比,基于WiFi嗅探的方法具有干扰小、覆盖范围大、成本低和计算简单等优点。近几年以来,研究人员提出了一些离线场景下的基于WiFi嗅探的估计方法对公交车乘客数和源点终点(Origin-Destinat
学位
面部表情包含着丰富的情感信息,是人与计算机交互的重要途径,具有十分广阔的应用前景。人脸表情识别(facial expression recognition,FER)随着深度学习在人工智能领域的快速发展,也获得了显著的进步。目前人脸表情识别的研究主要集中在数据集的收集整理,网络模型和损失函数的改进三个方面。大多数人脸表情识别研究都面临表情识别数据集中广泛存在的标注不一致问题。原因是不同的标注者的主观
学位
传统的显著性目标检测方式依赖领域专家提供先验知识人工提取特征,基于深度学习的显著性目标检测方式相较于传统检测方式可以自动学习多尺度特征,具有省时省力的特点。但是在受限存储设备下仍存在模型过大导致部署不便,模型训练周期较长、检测的实时性有待提高,复杂背景下模型对于显著性目标的定位不准确、边缘模糊等问题。因此如何以更低的时间和空间复杂度,高效且准确的定位分割出显著性目标物体成为显著性检测研究中极具挑战
学位
随着智媒时代来临,媒体智能化已逐渐成为媒体发展的主导性趋势,新闻媒体的业态版图正处于不断升级和改写的革新历程中,以AI合成主播为代表的人工智能技术被运用于新闻内容生产和传播,给新闻生产领域带来重构和优化。但是内蒙古地区蒙汉媒体与人工智能技术相结合起步较晚,AI合成主播研究仍处于初级阶段。本文研究的蒙古语AI合成主播,将提高蒙古语新闻的生产效率,降低新闻的生产成本,推动蒙汉新媒体技术的发展,加强蒙古
学位
目前,基于神经网络的机器翻译模型在不同语言的翻译任务上取得了不错的成绩。然而像蒙古语这样的语言却因为平行语料较少,翻译质量难以进一步提升。虽然迁移学习借助高资源语言可以提升低资源语言的翻译质量,但是参数如何选取直接制约着翻译性能的提升。因此本文提出元学习框架下情景级蒙汉机器翻译模型,通过对多语言学习一个泛化性能较优的元参数用于初始化蒙汉机器翻译模型。为了避免语言差异影响元参数的泛化性,本文将多语言
学位