跨越说话人及语言差异的语音生成

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:real_dolia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨越说话人及语言的语音生成是语音信号处理领域当中的重要研究方向,该问题又可分为两个子问题:1)跨越说话人的语音生成,即语音转换;2)跨越说话人及语言的语音生成,即跨语言语音合成。其中语音转换关注于转换说话人特征,即在不改变文本信息的前提下将源说话人的语音改变为目标说话人的语音使其带有目标说话人的音色和韵律。跨越说话人的语音合成专注于给定目标说话人第一语言语音数据,借助第二语言参照说话人的帮助为目标说话人量身定做第二语言语音合成器。跨越说话人及语言的语音生成在许多领域具有广泛的应用价值及实际需求,然而受限于实际场景中的数据量以及建模方法的性能,目前跨越说话人及语言所合成的语音的自然度及说话人相似度都不能令人满意,离工业界产品的需求还有相当长的距离。本论文针对语音转换及跨语言语音合成两个子问题在技术框架构建、技术改进方面进行了深入而系统的研究。本论文的具体研究内容和研究成果如下。首先,针对有平行训练数据的情况的语音转换场景,本论文对基于神经网络的语音转换训练准则进行了技术分析与改进,提出了最小化序列误差的神经网络训练准则,该训练准则一方面在人工神经网络误差反向传播训练中考虑到了整个序列的信息,另一方面消除了基于神经网络的语音生成回归模型在训练阶段优化目标和测试阶段合成目标不一致的问题。此外本文还利用神经网络将频谱和基频联合转换。实验证明基于最小化序列误差的神经网络训练准则比基于帧误差的训练准则更适合解决语音生成的回归问题。在CMU ARCTIC数据库测试集上对数谱距离(LSD)比基于神经网络的基线系统降低了0.15dB,主观测试中转换后的语音的自然度(60%vs.22%)及说话人的相似度(65%vs.35%)也都比基线系统得到了提高。其次,提出了只利用目标说话人的语音数据的一种基于说话人无关的神经网络声学(SI-DNN)模型及KL散度的完整语音转换技术框架(KLD-DNN)。说话人无关的深度神经网络输出的概率音素空间用来去除源说话人和目标说话人之间的声学差异,KL散度用来衡量不同声学单元在此音素空间的差异。之后根据目标说话人声学单元的不同,1)有监督场景下基于TTS senone;2)无监督场景下基于音素类;3)无监督场景下基于语音帧;采用了了不同的声学轨迹平滑后处理方法。实验证明基于说话人无关的神经网络及KL散度的语音转换技术框架显著超越了需要上述平行训练数据的基于神经网络回归模型的系统。在CMU ARCTIC数据库测试集上LSD比基于序列误差的神经网络语音转换模型降低了0.5dB。在主观测试中,语音自然度(91%vs.6%)及说话人相似度(88%vs.7%)两项指标显著超越了上述基于序列误差的神经网络模型的系统。第三,基于前面提出的利用说话人无关的深度神经网络去除源说话人和目标说话人之间的声学差异的思想,提出了在音素空间中单元帧拼接并利用WaveNet声码器合成语音的框架。WaveNet声码器不再依赖语音生成机制(如源-滤波器模型)的任何假设,而是利用卷积神经网络直接为语音采样点序列建模。实验证明,基于音素空间中的单元帧拼接及WaveNet框架方法在CMU ARCTIC数据库上对比上述基于KLD-DNN的方法在主观测试中取得了显著的进步,语音自然度(80%vs.7%)和说话人相似度(76%vs.8%)均获得了更高的偏好度。最后,提出了基于说话人无关的神经网络声学模型及KL散度跨语言语音合成技术框架,基于不同语言的语音在次音素或帧级别上在一定程度上可以部分共享同一音素空间的前提假设,利用第一语言训练出来的深度神经网络声学模型消除目标说话人第一语言语音及参照说话人第二语言语音的声学差异。在有监督情况下利用最小化KL散度对目标说话人第一语言决策树模型的叶节点及参照说话人第二语言决策树模型的叶节点进行一一映射;在无监督情况下,利用基于KL散度的权值和目标说话人第一语言语音数据对参照说话人的第二语言决策树模型的叶节点进行填充,从而得到目标说话人第二语言的决策树模型,实现跨越说话人及语言的语音生成。实验证明此方法比之前基于轨迹拼接的基线系统取得了显著的进步。测试集的对数谱距离(LSD)显著下降了0.89dB,主观测试中说话人相似度DMOS分比基线系统提升了0.6分(2.9分->3.5分)。本文层层递进提出了三种语音转换的方法:1)基于序列误差最小化的神经网络;2)基于KL散度和DNN的语音转换;3)基于单元帧拼接及WaveNet的语音转换。分别有效地解决了1)语音转换神经网路训练目标与测试目标不一致;2)如何有效去除不同说话人之间的声学差异;3)传统声码器合成转换语音自然度差这三个问题。三种方法较基线系统逐步地显著提升了语音转换后的语音自然度和说话人相似度。之后又提出了基于KL散度和DNN的跨语言语音合成,解决了跨语音合成不同语言之间如何消除声学差异的问题,显著提升了跨语言语音合成系统合成语音的说话人相似度。
其他文献
现代化水泥工厂对供电的安全和可靠性要求越来越高,非正常停电将给水泥厂造成较大损失。变配电计算机监控系统能提供实时的监控数据,对可能出现的故障进行预报警,改善供电质
“主智”与“主情”是教育科学发展中两种具有代表性的教学思想。“主情”的教学论从一开始就是旗帜鲜明地作为“主智”教学论的对立面而存在,其间论战此起彼伏,使教育理论与实
四川秦巴山区包括绵阳市、广元市、巴中市、达州市、南充市及广安市部分区县,土地贫瘠、交通不便、信息闭塞,但具有畜禽业发展的独特优势。本文结合四川省科技厅培训项目《贫
中国与韩国在发展经济上的一个共同特征就是通过制定和实施经济“五年计划”来促进经济快速发展,并取得了巨大的成功,创造了令世界惊讶的经济增长奇迹。两国国情的异同决定了
实物教学是教学过程中理论联系实际,直观性较强的一种教学方法,在教学中能起到事半功倍的效果,因此在技工教学及普通教学中应用比较广泛。但是,这种教学方法在企业职工培训中却很
火爆的双十一,推动了以互联网为基础的中国线上购物节的疯狂,伴随着信息化出生的新一代成年人,成为推动双十一水涨船高的有利推手。分析中国造物节从中国影响世界,讨论背后相
目的探讨磁共振DTI及T2 mapping在急性前交叉韧带(ACL)损伤并膝关节软骨损伤中的应用价值。方法依据入组标准,纳入急性ACL损伤的膝关节病例40例,选取正常膝关节35例为参照组,
客家山歌是我国著名的民歌之一,讲究语言艺术方言化、口语化、生活化和形象化,是客家人生活及精神世界的生动写照,其表现手法形式多样,具有古朴、含蓄的艺术风格,是中国民歌百花园
“黑夜给了我黑色的眼睛 我却用它寻找光明” 已经不知道是第几次读这首诗了,只是当我一字一字地将它抄在纸面上时,依然有一种难以抑制的震撼。在这个频频被廉价的忧伤与深
<正>精准扶贫到户,发展产业脱贫陕西·紫阳,地处陕南的安康市,上古巴国时期产茶,辖域焕古茶是紫阳富硒茶内在品质的灵魂和代表。紫阳茶外形如梭似毫,汤香茶靓,清香四溢。若泡