基于神经网络的情感语音合成方法

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:qingdao2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。目前,大多数很多优秀的致力于提高中性语音成的质量的TTS模型已经被提出,例如Tacotron2和Wave Net。但这些模型大多数使用的是RNN或者LSTM作为编码器和解码器,这种自回归的结构导致这些模型在训练和预测时很慢。此外,随着智能化语音合成系统的不断完善,人们对增强语音自然度的要求也越来越高。近几年,针对情感语音的分析与合成正成为新的研究热点,越来越多的研究员致力于研究如何合成富有表现力的情感语音。但是,在情感语音合成领域,开源的情感数据集很少,且大多数数据来自不同的发言人,导致可用来训练的数据集规模都很小,一定程度上限制了基于深度学习方法的情感语音合成模型的效果。针对以上问题,本文主要工作如下:(1)针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一个基于Bert的端到端的语音合成模型Bert TTS,该模型能合成高质量的英语音频。并且,该模型使用预训练的Bert作为编码器,在提高训练速度的同时能有效解决RNN那样长距离信息丢失问题。(2)针对不同情感的代表特征向量的选择问题,提出了一种基于情感数据集内部各情感的样本向量间距离的方法。该方法在考虑同一情感数据样本分布的同时,也考虑了该情感数据样本与其他情感数据样本的距离。并通过实验证明该方法优于基于均值的特征向量表示法。(3)针对情感语音数据集规模小的问题,提出了一种基于中性TTS通过在小批量情感语音数据集上微调来合成情感语音的方法。实验表明本文提出的Bert TTS模型能够在得到与Tacotron2模型相近效果的基础上,把训练速度提升一倍左右。同时,本文提出的基于中性语音合成模型通过微调在小批量数据集上合成情感语音合成方法能够合成清晰的情感语音,在MOS打分测试中总体获得了3.77分。
其他文献
快速、准确的早期诊断对临床医学疾病的预防和治疗至关重要,以蛋白质、核酸、小分子等为代表的生物标志物作为药物研发靶点、疾病发病机理和预后的可衡量指标,已经被应用于早期疾病诊断和药物研发领域。CRISPR/Cas是细菌和古细菌中用于防御病毒感染的适应性免疫系统,其能够通过向导RNA(g RNA)引导Cas蛋白靶向特定的核酸序列。其中,Cas12a(Cpf1)是一种来自2类V-A型CRISPR/Cas系
声发射技术具有对损伤敏感、受几何构造影响小、探测距离远等优势,适用于土木工程结构的在线监测。利用声发射进行结构健康监测需要通过声发射信号的定量分析达到损伤识别、定位和评估的目的。声发射信号包含材料的动态微观损伤信息,不同损伤机理的信号通常具有不同的瞬时频率成分。本文针对声发射信号定量分析的需求,提出基于时频分析和深度学习的声发射信号分类方法。采用小波变换研究声发射信号的时频能量分布,然后建立卷积神
自2004年第一个基于核酸适配体的药物Macugen被成功运用于临床治疗后,核酸适配体药物便有了一定的发展。然而,目前用于临床治疗的适配体药物只有少数几种,而造成这种现象的原因之一是适配体的构象稳定性差。适配体折叠能量是评估适配体构象稳定性的重要参数,但是目前测量适配体折叠能量的方法有限且存在一定的误差。除上述基于适配体的药物发展所面临的问题之外,基于适配体的生物传感器同样面临着一定的困难。由于通
相控阵雷达、5G无线通信试验系统、宽带数字接收机和数字示波器的高速发展正在将系统带宽不断推高,显著增加了数据采集系统对高速、高精度ADC(Analog-to-Digital Converter)的需要。时间交织ADC(Time-Interleaved ADC,TIADC)技术是提高采样率的有效途径,但是这将不可避免地引入通道失配误差,主要包括失调失配、增益失配和采样时间失配,并严重降低了TIADC
随着互联网和大数据技术的发展,方方面面对数据的依赖越来越强,产生的数据规模越来越大,数据样本复杂度也越来越高。为了精准地预测数据,获取准确且有价值的信息,就需要选择合适的技术进行处理。本文借助极限学习机模型的优势,针对多标签分类中的数据标签和数据样本结构问题开展相关研究工作,主要工作包括:对于多标签分类中存在非线性的数据样本和重复的样本数据问题,本文提出了一种基于在线顺序极限学习机的改进算法—样本
移动自组织网络(Mobile Ad-hoc Network,MANET)具有无基础结构、自组织和多跳能力的特性,在军事任务或紧急救援中具有巨大的潜在应用。对于军事场景而言,在MANET中实现低成本、高效的反入侵、反窃听和反攻击机制非常重要。入侵MANET或攻击MANET的目的通常与有线Internet的目的不同,有线Internet的安全性机制如集中认证和授权已得到广泛探索和实施。而对于MANET
机器人执行抓取任务时,力传感器和力执行器是两个重要的工作部件,利用力传感器可实现力执行器的闭环控制,提升机器人的抓取智能水平。由于具有良好的延展性和安全交互性,柔性力学传感器和力执行器随着柔性电子技术的发展逐渐兴起,已成为智能机器人领域的研究热点。然而,目前相关研究集中于单一力传感器或力执行器件的研究,关于两者一体化集成的研究工作较少。此外,力传感器和力执行器使用的原理不同,信号转换复杂、集成度较
Cu2+在生理和病理事件中起着至关重要的作用,人体中Cu2+的不平衡会产生许多问题,比如人体中过多的Cu2+会产生多种肝脏或肾脏疾病,但是当体内Cu2+不足时,会使人们产生脑缺血从而患上神经衰退性疾病严重者甚至死亡。因此,开发一种用于Cu2+实时快速测定的高效方法具有重要的研究意义。鉴于现有的Cu2+检测技术精度较低、需要复杂的样品预处理和笨重的仪器、且检测时间久,无法满足实时检测等一系列问题的存
图像的风格迁移是一种重要的图像处理技术。风格迁移技术旨在通过一定的算法,将一张图片的内容信息与另一幅图片的纹理、色调、轮廓等风格信息相互融合,继而创造出一张全新的图像,与原图像相比,生成的图像在原有的内容信息不改变的情况下,风格却变得迥然不同。近年来,深度学习的快速发展以及其在图像处理方面的优异表现引起了研究者们的广泛关注,研究者们开始运用深度学习技术来研究图像的风格迁移问题,并取得了许多突破性的
近年来基于共轭聚合物超薄膜的有机场效应晶体管(OFET)成为气体传感领域的热门研究方向。由于超薄膜的厚度仅为几个单分子层厚,其用于气体传感可以增加OFET导电沟道与气体分子的物理接触面积,减少气体分子在有机半导体中的扩散路径,从而提高传感器件的传感性能。本论文围绕OFET超薄膜微观结构与电学、气体传感性能之间关系尚不清楚这一问题,以优化超薄膜OFET气体传感器制备工艺、提高OFET器件传感性能为目