基于音素后验概率分布图与非线性掩码后处理的语音转换算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jeffbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术,是一项广义上的语音合成技术,指的是在保持语义内容不变的情况下改变语音的特性。基于深度学习的语音转换模型有两种主流的方法,第一种方法是端到端的方法,第二种方法是利用语音识别(ASR)和文本转语音(TTS)两种方法综合完成。端到端的模型的最大优点是可以直接构建源和目标声学特征的映射,不需要开发者关心具体的转换细节,但缺点也明显,需要依赖大量的训练数据,解耦也比较困难。基于ASR和TTS的方法则将语音转换设置为一套标准流程,且区分不同模块:源语音分析,特征映射和目标语音重构。这种方法存在两个比较大的缺点,一方面,语音转换比较依赖TTS模型,而TTS模型受其对齐方法的影响容易导致合成语音中出现“重复读”等语义错误;另一方面,由于不具备良好的语音增强后处理,合成语音中可能存在噪声,或者存在语义失真。本文采取的研究方法属于后者,并针对上面提及的两个大问题进行改进。通过结合ASR模型和TTS模型,本文提出了基于音素后验概率分布图(PPGs)建模的TDLSTM模型和基于非线性掩码后处理的Tacotron-NMLs模型,其中,TDLSTM和Tacotron-NMLs分别是PPG模型和TTS模型的具体实现。本文的贡献点主要有三个,其一是通过TDLSTM强大的“首包”信息利用能力和时序建模能力,从而生成时间信息更加准确的音素后验概率分布;其二是利用音素后验概率分布图提供的时间信息,辅助TTS模型更有效地寻找发音状态所应该分配的声学特征,从而在解决转换语音存在的“重复读”语义错误;其三是在语音转换中引入非线性掩码技术(NMLs),提出TacotronNMLs模型,利用其语音增强及分离的技术,解决转换后的语音存在噪声及语义信息丢失的问题,从而增强合成语谱图中的共振峰信息,最后通过高效的神经声码器Wave RNN还原出更加自然流畅的时域单声道信号。基于提出的模型,本文构建了一种基于“TDLSTM+Tacotron-NMLs+Wave RNN”的语音转换流程,并就此开展实验。集内测试的结果表明,本文构建的语音转换流程所转换出来的语音与参考语音之间的误差最小,而集外测试的结果表明,就听众的主观听觉感受而言,本文的语音转换流程所转换得到的语音在自然度和流畅度方面更好,这均得益于音素后验概率分布图和非线性掩码在语音转换中的所带来的增益。
其他文献
随着我国社会经济的快速发展,电能需求不断增加,高容量、大负荷电力电缆的应用越来越广泛,电缆线路的安全可靠、经济合理运行是保障电力电缆系统的关键。其中,地下电缆系统作为现代配电和输电网络系统的重要组成部分,其电缆温度直接影响了热阻和载流量,而回填区域的填充材料传热性能又直接影响电缆与周围介质间的传热,从而影响电缆温升。因此,对电缆填充材料传热性能的研究有助于提高输电线路的运行价值。本文通过调控电缆周
汽车作为提升生活质量的工业产品,人们对于汽车的行驶舒适性、安全性、操纵稳定性有了更高的要求。主动悬架能够更加广泛的调节悬架系统的各项性能,成为了满足人们需求的有效手段之一。有关主动悬架的研究中,控制策略无疑是关注的重点,因为不同的控制策略作用于相同的物理结构也会产生巨大差异的控制效果。此外,实际悬架系统并非理想模型,存在变参数,执行器存在不确定和时滞等问题,如何满足悬架系统约束的同时解决各种实际的
多传感器融合移动操作机器人具有复杂环境感知、大范围移动操作和类人协调操作能力,适用于非结构环境下的复杂操作任务,是当下移动操作领域的研究热点,而正确地理解自身状态是自主移动操作的前提。基于以上背景,本文以双臂移动机器人为研究对象,融合视觉、IMU(Inertial Measurement Unit,惯性测量单元)和轮速传感器信息,研究机器人的自主定位技术,主要研究内容如下:(1)搭建了一款多传感双
在信息科技与智能制造高速发展的21世纪,已有的商业化锂离子电池已经不能满足我们的储能需求,亟需开发更高性能的新型储能材料。过渡金属钼酸盐体系的多电子反应能够提高其储锂比容量,及其自身的“协同效应”保证了良好的电化学性能,因此具有重大的研究意义。此外,具有高安全性、成本低廉的水系锌离子电池也逐渐成为研究的热点,有望成为下一代储能系统的候选技术。本论文主要研究了几种新型过渡金属钼基电极材料的合成方法、
橡胶行业是国民经济的重要基础产业之一。它不仅为人们提供日用、军用等轻工橡胶产品,而且向采掘、交通、建筑、机械、电子等重工业和新兴产业提供各种橡胶制生产设备或橡胶部件。可见,橡胶行业的产品种类繁多,衍生产业十分广阔。其中,由丙烯腈与丁二烯单体聚合而成的丁腈橡胶,因其耐油性极好,耐磨性较高,耐热性较好,粘接力强,而有着广泛的应用。随着科技日新月异的发展,单一性能的橡胶制品很难满足人们的使用需求,高性能
有机半导体受限于较低的载流子迁移率,其器件通常由基于几十到几百纳米厚度的有机功能薄膜组成。有机半导体界面接触特性往往决定了器件的性能,而不是材料的本体特性。比如,有机电致发光二极管器件(OLED)、有机太阳电池(OPV)和有机光敏二极管(OPD)采用导体/有机功能层/导体的“三明治”式器件结构,通过金属-半导体的接触界面和有机异质结界面实现整流、光电转换等重要功能。由于单一的材料很难同时满足载流子
字符缺陷检测一直是图像处理中的热门研究领域,被广泛应用于生活、制造、科研等方面。在全自动的字符缺陷检测流程中,需要对字符进行分割,分割的结果直接影响缺陷的检测结果。计算器作为日常使用的工具,其面板表面字符具有数字、字母、运算符号等多种类别,其字符的大小颜色均有不同,进行字符分割是一项十分具有挑战性的任务,技术难点不仅在于字符与背景的分离,而且涉及到单个字符的分割,以及对重叠字符的分离和断裂字符的合
枸杞的主要成分有多酚、类胡萝卜素、枸杞多糖等,具有抗氧化、抗增殖和抗衰老的功能,被誉为“超级水果”,是现代人的养生首选。过去枸杞相关的研究集中在对枸杞中的功能活性物质进行提取、测定以及鉴别,尤其是针对枸杞多糖的结构鉴定以及活性研究。本文从其他角度出发,以两种枸杞(Lycium ruthenicum Murr.(LRM)和Lycium Barbarum.(LB))的粗提物为研究对象,利用高效液相色谱
基于异腈单体的有机反应可以追溯到1921年报道的Passserini反应。然而,这些研究工作大多没有推动基于异腈单体的环化聚合物的合成发展,主要的挑战在于缺乏高效的聚合反应,这也限制了环化聚合物的大规模制备和应用。现代有机化学为基于异腈单体制备功能环化聚合物提供了有效的途径,然而,通过异腈单体参与的有机反应开发基于异腈单体的环化聚合反应仍极具挑战性。通过多组分环化聚合反应,双官能度的异腈单体可以参