基于深度学习的歌唱语音合成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ck2112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
歌唱语音合成(Singing Voice Synthesis,SVS)旨在实现将歌词和乐谱信息(例如节奏、音高等)转换成歌唱语音。统计参数合成方法可利用较少量歌唱数据合成平稳流畅的歌唱语音,已成为主流的歌唱语音合成方法。传统以隐马尔科夫模型为代表的统计参数歌唱语音合成声学模型的精度不足,合成歌唱语音的自然度不理想。近年来,以深度神经网络(Deep Neural Network,DNN)为代表的深度学习模型在统计参数语音合成中得到了广泛应用,显著提高了声学建模精度,但是DNN无法对歌唱语音中声学特征的长时相关性进行建模。因此,本文围绕基于深度学习的歌唱语音合成,开展了循环神经网络、深度自回归模型、序列到序列模型等歌唱语音合成声学建模方法的研究,具体包括:首先,本文研究了基于循环神经网络的歌唱语音合成方法。歌唱语音合成中存在复杂的上下文依赖关系,该方法利用循环神经网络结构对这些依赖关系进行建模,提升了传统DNN模型预测基频、频谱、时长特征的精度。其次,本文提出了基于深度自回归模型的歌唱语音合成声学建模方法。为了更好的描述在连续帧中声学特征之间的依赖性,该方法采用深度自回归的方式来预测基频轨迹和谱特征,进一步改善了循环神经网络声学模型的建模精度,实现了对于颤音等基频动态特性的生成,提升了合成歌唱语音的自然度。最后,本文设计实现了基于序列到序列模型的歌唱语音合成方法。该方法在主流Tacotron2模型的基础上,通过引入时长嵌入层与依据时长扩张输入文本,实现了时长可控的序列到序列的歌唱合成。进一步引入双向解码机制来约束前向解码和后向解码的一致性,达到了加强时长控制能力、加快模型收敛的目的。实验结果表明该方法可以取得优于深度自回归模型的合成语音主观质量。
其他文献
目的 :探讨用高压氧治疗儿童一氧化碳中毒昏迷的临床效果。方法 :将2010年至2017年期间在宁夏医科大学总医院PICU接受治疗的60例重度一氧化碳昏迷患儿作为研究对象。对这60例患
为了解助燃剂对南钢烧结厂原料的适应性,通过烧结杯试验,对添加助燃剂烧结后的主要工艺指标进行了分析,提出了合适的助燃剂比例,为助燃剂用于烧结工业生产的可行性提供参考依
蚌埠闸北小水电站,单机容量250kW,水轮机型号ZD760-LM-120,发电机SF250-20/1730,其法兰与水轮机飞轮弹性联接。设计水头4.5m,最大水头6m,最小水头2.5m,转速300r/min,叶片安装
表面织构化加工技术是改善表面性能、制备满足不同需求功能化表面的重要方式,近年来已经得到越来越多的关注和研究。虽然已有诸多加工方法应用于微织构表面的制备,但开发高效
模拟一组典型环境风场的单多普勒速度模型,这组环境场包括水平一致风场、纯涡旋风场和纯辐散风场等。不同的风场在单多普勒速度场上有不同的特征,通过本文提供的一组模型,可以帮
<正> 农村小型水电站、变电所为了使电气设备免遭雷电损坏,一般都安装避雷器作为防雷保护。常用的避雷器有阀型和管型两种,阀型避雷器主要用来保护变压器及变电所母线系统的
Load and traffic balancing for the Internet are analyzed. An intelligent domain name system(DNS) policy for the control and management of content distribution n
轮毂电机对所选用电机的轴向尺寸、整体结构以及重量等要求苛刻,传统轮毂电机主要采用的是径向磁通永磁电机(Radial Flux Permanent Magnet,RFPM),而通过研究轴向磁通永磁(Ax
介绍了采用EDGE系统数控切割机的构造、EDGE系统的各种功能以及数控切割机控制系统的结构.
介绍中小企业商业模式发展的现状,分析了中小企业商业模式的构建措施。