有限数据下语音转换的深度学习算法

来源 :东南大学 | 被引量 : 0次 | 上传用户：chungpy

【摘要】

：

【作者】

：

张明阳

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2021年01期

【关键词】

：

语音转换深度学习平行转换非平行转换迁移学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音转换的目的旨在改变源说话人的语音,使其听起来像目标说话人,同时保持语言内容信息不变。在过去的几十年里,语音转换的技术发展迅速,并逐渐成为语音处理领域研究的一个热门话题,广泛应用于个性化语音合成、说话人去识别化以及电影游戏配音等方面。深度学习技术的出现,极大程度地推动了语音转换技术的进步,为平行语音转换和非平行语音转换的研究开辟了新的方向。深度学习技术允许语音转换模型利用更大的训练数据,以提高生成语音的质量及其与目标说话人的相似度。然而,在现有的应用于语音转换的深度学习方法中,依然存在着一些未解决的问题。深度神经网络的训练通常依赖于大量的训练数据,而在语音转换的实际应用中,往往很难收集到来自源说话人和目标说话人的大量数据,这就会在神经网络训练时造成由有限数据引起的过拟合和过平滑的问题。研究开发新的语音转换方法,克服现有技术的局限性,在有限的训练数据条件下,保持深度学习系统的高质量、高性能,正是该领域所亟待研究的课题。针对前文所述问题,本文主要研究了在有限的训练数据条件下,如何利用深度学习的方法完成高质量的语音转换任务。本文的主要任务和创新点如下:1、提出了应用于DBLSTM语音转换系统的误差削减网络。许多用于语音转换的深度学习方法都是通过使用大量的训练数据来生成高质量的语音。本文提出了一种基于DBLSTM的语音转换框架,该框架可用于有限数量的训练数据。所提出的语音转换框架基于以下三个观察动机:1)DBLSTM可以考虑到语音发声的长时依赖性,实现高质量的语音转换。2)基于DBLSTM的平均模型可以很容易地利用少量数据进行自适应训练,以生成更接近于目标说话人的语音。3)误差削减网络仅需要利用少量的训练数据来训练,就能有效地提高转换质量。实验表明,所提出的语音转换框架可以灵活地处理有限的训练数据,并且在客观和主观评估方面均优于传统框架。2、提出了DeepConversion,少量平行数据下的语音转换。研究了一种新的语音转换框架Deep Conversion,该框架利用了大量的非平行多说话人数据,以及少量的平行训练数据。通过在大量公共可用的、非平行的、多说话人的语音数据上训练得到说话人独立的通用模型,可以表征不同说话人的共有特征。利用这种通用模型,可以更有效地从有限数量的平行训练数据中学习源说话者和目标说话者之间的映射。除此之外我们还提出了一种策略,使得框架中的所有模型都能充分地利用有限的平行数据。实验表明,在客观和主观评估中,仅使用有限数量的平行训练数据的Deep Conversion始终优于使用大量平行训练数据的传统方法。3、提出了采用多源Tacotron和WaveNet的语音合成-语音转换联合训练框架。研究了一种语音合成和语音转换任务共享模型的联合训练方法,所提出的系统是一个具有双注意力机制的多源序列到序列编解码器模型。作为语音合成和语音转换任务的共享模型,该模型可以根据输入类型的不同分别完成这两个不同的任务。当模型的输入为文本序列时,进行端到端语音合成任务。而当给出源说话人的语音作为输入时,进行序列到序列语音转换任务。最终语音时域波形的生成是通过Wave Net声码器来完成的,Wave Net声码器使用预测得到的梅尔谱频谱来作为输入生成语音信号。我们将模型的解码器作为一个共享模型进行联合训练,使其同时支持文本和语音的多源输入。听力测试结果表明,我们提出的多源编解码器模型可以同时有效地完成语音合成和语音转换的任务。4、提出了从语音合成到非平行语音转换的迁移学习。本文研究了一种新的从语音合成中学习构建语音转换系统的方法,称为TTS-VC迁移学习方法。利用语音合成系统将输入文本映射到一个说话人独立的上下文向量,并重新利用这种映射来监督编解码器语音转换系统中隐含表示的训练。在语音转换系统中,编码器以语音作为输入而非文本,而解码器在功能上和语音合成解码器相类似。由于解码器将说话人嵌入作为额外输入,该系统可以在非平行数据上进行训练以实现任意对任意的语音转换。在系统训练时,我们同时使用文本和语音来分别作为语音合成和语音转换的输入来训练两个模型。而实际运行时,语音转换网络仅使用自身的编解码网络体系,即仅将语音作为输入而不需要文本的额外输入。实验表明,所提出的方法在语音质量、自然度和说话人相似度上均始终由于两个基线系统——基于PPG的方法和AutoVC的方法。

其他文献

情感语音转换技术研究取得新进展

报纸

语音转换说话人声学特征情感语音

高中地理教学融合课程思政探索研究

2004年以来,中共中央出台了一系列加强和改善未成年人思想道德建设的文件,为学校课程改革开辟了新的道路。在课程改革探索过程中,逐步形成“课程思政”理念。党的十八大提出社会主义教育工作的根本任务是“立德树人”,培养德智体美全面发展的社会主义建设者和接班人是我国的教育目标。课程思政是实现立德树人目标的重要途径,在课堂教学中一方面传授学生基本知识和技能,另一方面重视对学生情感态度、价值观念和理想信念的培

学位

课程思政高中地理有效融合

聚力中心工作聚焦民生关切聚合代表力量为郑州国家中心城市现代化建设提供坚强法治保障

报纸

预算监督执法检查法治保障请示报告制度专题调研人大常委会国家中心城市

大单元视域下民间故事教学策略探寻

＜正＞引导学生在基于真实的生活情境中学习语文，用整体的思维进行自主探索、发现反思等，可以促进学生语文核心素养的发展。教材采用“人文主题”和“语文要素”双线组元的编排体系，为转变语文教学方式，实施大单元教学提供了条件。在大单元教学中，教师要结合单元内容确定明确的教学目标，注重对单元内容的整合，进行真实教学任务情境的设计以及对学生学习成果的评价等。笔者现以五年级上册第三单元为例，探讨大单元视域下民间故

期刊

指向文本特点的民间故事教学策略——以《牛郎织女（一）》的教学为例

民间故事是从远古时代口口相传下来的经典文学作品，虽然篇幅一般都比较长，但内容充满了幻想，尤其是故事情节的传奇性对学生有很强的吸引力。民间故事文本线索单一、情节曲折、结构清晰、通俗易懂，因而指向文本特点的教学策略有助于学生更好地学习民间故事。教师可通过梳理故事脉络、品味人物特点、发挥想象复述、开展读写结合以及引导深入阅读等策略展开教学，让学生在中华优秀传统文化的浸润中感受民间故事的神奇。

期刊

民间故事文本特点教学策略

口耳相传：民间故事的教学要领

民间故事由古代劳动人民集体创作，以口头形式传播，代代相传。“口耳相传”是打开民间故事学习的基本方式，具有统整其他学习方式的作用。依据民间故事的结构原型进行讲述，学生在“口耳相传”中发现民间故事创作的秘密，感受故事中蕴含的文化母题。

期刊

民间故事故事结构口耳相传

高管背景特征、非经营性占用资金与内部控制审计意见——基于沪深A股上市公司的数据

选取2012年-2020年沪深A股上市公司为研究样本，剔除金融类、保险类及数据不全的企业，构造逻辑回归的计量模型，实证检验非经营性占用资金与内部控制审计意见的相关性以及高管背景特征对这两者之间相关性的影响。研究表明：非经营性占用资金与内部控制标准审计意见存在显著负相关关系；高管团队规模和高管团队性别对非经营性占用资金与内部控制审计意见的相关性具有显著的负向调节作用，高管团队平均学历有显著的正向调节

期刊

内部控制审计非经营性占用资金高管特征

基于情境创设的单元整体教学研究——以五年级上册“民间故事”单元为例

创设真实、有效的学习情境，能凸显语文学习的实践性。创设学习情境可以引导学生在语文实践活动中体验、探究，发展语文核心素养。以统编小学语文教科书五年级上册“民间故事”单元为例，教师教学时可创设“我是民间故事推荐人—我是民间故事主讲人—我是民间故事推广人”的情境任务群，环环紧扣，层层推进，创建单元整体教学路径，引导学生在情境任务中发展学科素养。

期刊

单元整体教学民间故事情境创设

美国零信任制度研究及启示

梳理分析了美国国防部和联邦政府的零信任政策相关标准情况，介绍了我国零信任相关政策标准以及产业发展情况。在此基础上，提出了加快零信任体系架构相关国家标准研制、开展零信任试点示范工作、推动零信任安全评估体系建设、积极推动零信任产业发展等建议。

期刊

零信任政策标准产业发展能力成熟度

水热加成聚合碳化法合成碳化聚合物点及其应用

作为一种新型的碳基纳米材料,碳点近年来受到人们的广泛关注。碳化聚合物点是碳点的一个子类,由于具有聚合物/碳杂化的核壳结构和优异的光学性质,所以兼具了聚合物和量子点的优势。这类碳点一般也具有合成容易、成本低廉、环境友好、低毒、稳定性好、生物相容性好等优势,因此在生物成像、光电、防伪、传感、能源转换与存储等领域展示出巨大的应用潜力。然而,到目前为止,碳化聚合物点的可控合成与结构性能调控依然存在困难,成

学位

碳点碳化聚合物点水热加成聚合碳化成核与形成机理室温磷光杂化聚合物电解质膜

有限数据下语音转换的深度学习算法

其他学术论文