面向语音合成的深度学习算法研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:scotty_zhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(speech synthesis,又名text-to-speech,TTS)是人机交互的重要方法之一,旨在合成清晰且自然的音频。语音合成的应用场景非常广泛,比如手机和个人电脑的语音助手、同声传译的语音输出环节、车载导航播报、新闻朗读等等。通过语音合成,可以解放用户的眼睛,使人能在“眼观”的同时还可以“耳听”,增加信息接收的带宽。最近,随着神经网络的快速发展,端到端的语音合成模型逐渐进入人们的视野。这表现在两个方面:一方面,由于自然语言处理(natural language process,NLP)领域的飞速发展,尤其是机器翻译领域的推进,用于序列到序列转换的模型(如Seq2seq,Transformer)日趋成熟,且表现出了优异的性能,为语音合成打下了坚实的模型基础;另一方面,端到端的神经语音合成模型表现出了强大的性能,表现在省去了复杂的前端,转而借用神经网络模型以端到端的方式直接将文本转换为可以高效描述声学特征的表示方法,例如频谱或者梅尔谱。本文主要针对语音合成的三大基础问题,即自然度、鲁棒性以及“文本-音频”对齐进行了探索研究。在自然度方面,本文提出了Transformer TTS,首次将Transformer通过与Tacotron2结合的方式应用到语音合成领域,进一步提高了生成语音的自然度;同时,Transformer TTS缩短了训练时间,并且能够在任意两个时间步之间建立起直接的依赖关系。在鲁棒性方面,本文首先对于之前的神经语音合成模型鲁棒差的问题进行了分析,得出其鲁棒性受限的几个关键因素;并且基于这些分析提出了Robu Trans,该模型既能保持Tacotron2和Transformer TTS的自然度,又可以极大地提高鲁棒性,避免生成异常音频的情况。另外,“文本-音频”对齐是语音领域一个重要的基础研究问题。在这个方面,本文提出了基于神经网络的对齐模型Mobo Aligner,其利用一种全新的注意力机制,能够在梅尔谱中单调地搜索文本单元的边界,从而得到二者对齐。相比Transformer TTS,Mobo Aligner可以得到更准确的对齐,并且减少了45%的参数量和30%的训练时间。
其他文献
在国家“一带一路”倡议下,越来越多中国企业进入海外市场,加速布局国际业务。进入国外市场后,跨国企业直接暴露于陌生且复杂的海外环境中,缺陷和弱点会被进一步放大,国际化增长将面临更大的风险和威胁。尽管现有研究已经对跨国企业国际化进入后发展的驱动因素做了多维度分析,但这些观点侧重于跨国企业自身属性,集中讨论企业已经存在的企业特殊资源优势,即对其内部优势的扩大化利用。由于新兴者劣势与来源国劣势,中国跨国企
本文针对几类时滞神经网络(Neural Networks,NNs)系统,研究了其稳定性,无源性,耗散性,以及其状态估计问题。首先,本文以时滞NNs系统的稳定性问题作为开始和基础,为后续广义耗散性的研究做好了准备。随后,针对耗散性的一种特殊情形——无源性,进一步探讨了马尔科夫跳跃NNs的无源控制问题。最后,本文研究了半马尔科夫跳跃NNs的有限时间状态估计问题。全文基于Lyapunov稳定性理论,结合
经典合同理论将自利理性作为分析的基础,但是大量研究表明以自利理性为基础的合同理论未能很好的解释和预测现实中人们的真实决策,例如Lim和Ho(2007)[1]以及Ho和Zhang(2008)[2]的研究表明了几种不同的合同(如两部定价合同、数量折扣合同等)在实验中未能达成理论预测的供应链协调结果。特别地,行为经济学的研究表明人们在经济决策的过程中不仅会考虑其自身经济利益,也会考虑他人的利益。这些行为
物联网技术快速发展与广泛应用,对高精度高可靠性温度、湿度等目标对象动静态特性感知与测试提出了新的挑战,探索发展新型温度、湿度等动静态物理特征感知机理及实现技术已成为学术界和产业界的研究热点。温度、湿度等物理量感测灵敏度、精度、线性度等性能直接决定了物联网节点的性能和可靠性。新型人工电磁结构(又称超构材料)具有负介电常数、负磁导率、强谐振性等特征及负折射、逆Cerenkov辐射、逆Doppler效应
场景理解是机器学习、模式识别等学科非常活跃的研究方向。图像分类和图像语义分割是场景理解的两个重要研究内容,虽然随着机器学习方法的不断发展已取得突破性的进展,但依然存在一些亟需解决的问题。本文以图像分类为主要研究对象、机器学习方法为主要研究手段,重点针对经典机器学习方法下图像分类任务中的低分类率图像类别的识别问题、视觉字典的学习耗时问题和场景理解的多任务集成模型设计问题,以及深度学习模式下图像分类网
深度学习是机器学习的重要分支,是一种使用多层非线性变换结构进行模式匹配和预测的算法。近年来,深度学习被广泛应用在图像识别、自然语言处理和语音识别等领域,极大改善算法性能,在人工智能中扮演越来越重要的角色,但是在现实应用中深度学习的缺陷也凸显出来。深度学习的大部分任务是有监督学习,需要大量有标签的数据。深度学习模型计算复杂度高,算法容易被攻击,而且缺乏可解释性,其内部工作机制不清楚。贝叶斯推断方法依
从2014年“双创”以来,我国新企业年登记数量屡创新高,创业活跃指数跃居全球主要经济体之首。各行各业创业活动方兴未艾,成为经济和社会发展的新引擎。然而,时至今日,我国的创业活动总体创新质量还有待提升,主要创新指标依然落后于发达经济体,甚至在关键核心技术领域受到发达国家的“卡脖子”限制。十九届五中全会提出“创新”在经济建设全局中的核心地位,把科技自立自强视为未来国家竞争力的战略支撑。作为科技活动与商
可延展柔性电子通过对无机功能薄膜进行力学结构设计,可在保持无机材料高电子学性能的同时使器件具有宏观的可变形、可延展等特性。可延展柔性电子器件因其兼备高性能和可变形等优点受到广泛关注,目前已用于可穿戴无线射频识别、可穿戴柔性传感器,柔性电池等领域。但作为一类新型的电子器件形式,可延展柔性电子器件中的一些关键科学与技术问题仍处于初步研究阶段,急需进一步开展相关研究。从器件制备的角度,可延展柔性电子器件
在分布式传感器网络中,每个节点通过与临近节点交换多目标后验分布并联合所有临近节点的信息进行融合。但分布式传感器网络中的节点因功能、配置时钟、探测范围等特性的差异,导致节点间往往无法在相同视域内的同一时间点探测到相同的目标信息,造成基于广义协方差交叉(GCI)和加权算术平均(WAA)准则的分布式融合算法失效。能否保证待融合信息所表征的目标信息一致,是保证时间异步和非同视域条件下的分布式融合算法有效的
资源分配问题是网络系统中一类重要的优化问题,而且已在传感器网络、智能电网和交通系统等领域得到广泛的研究。由于分布式算法能够有效克服由设备故障、外部扰动和通信延时引入系统中的不确定性,而且不需要一个中心结点去获得优化问题的完整信息,还能够有效地保护个体的隐私,这些优点使得分布式资源分配算法引起了学术界和工业界的广泛关注。本文利用图论、非光滑优化理论和拉萨尔不变原理等理论工具分别研究包含通信时间延时的