基于自编码器的零样本语音转换系统研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:liudanfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换最典型的任务是在不改变一段语音的语言信息的前提下改变说话人的音色,使其听起来像是目标人物说的。近些年来,语音转换的主流研究方向逐渐从平行系统转变到非平行系统,再转变到零样本系统。零样本系统是指语音转换模型可以将不在训练集中的说话人作为转换的源和目标说话人。相比传统方法,零样本语音转换的核心思路在于使用说话人身份编码作为说话人的身份标签,这使得模型具有实现零样本语音转换的能力。本文提出了一种基于自编码器的零样本语音转换方法,主要有以下两个创新点:1)敏锐地关注到说话人身份编码的有效性对于零样本语音转换系统的重要性。本文提出了一种校正说话人身份编码的方法,提升了说话人身份编码的有效性和语音转换系统的整体性能。2)发现了前人提出的方法中源说话人和目标说话人基频信息会发生冲突的问题。本文对自编码器模型进行优化,将内容编码器的输出维度进行了调整,并且使用MCEP和F0替代原本普遍使用的梅尔频谱作为主要的声学特征,将F0特征单独进行转换,从而在很大程度上避免了基频冲突的问题。本文对提出的整体系统和以上两个创新点进行了详尽的客观和主观评估,评估结果表明本文所述方法提升了转换语音的质量和与目标说话人音色的相似度,性能上优于目前最新的基准模型。
其他文献
目的 基于政策工具分析2018—2022年我国老年健康相关政策文件,为完善老年健康相关政策,推进健康老龄化提供参考。方法 以“老年”“老龄化”“老年健康”等关键词在“北大法宝”、国务院政策文件库和相关部委门户网站检索公开发布的老年健康相关政策文件,采用内容分析法对文件进行编码,提取关键词。基于Rothwell和Zegveld的政策工具分类理论和系统论维度理论构建二维分析框架,分析政策工具使用情况。
期刊
为了实现大肠杆菌高效生产β-烟酰胺单核苷酸(β-NMN),设计模块化代谢改造策略。首先,对烟酰胺(NAM)和β-NMN支路代谢涉及的8个酶进行失活,减少底盘细胞对前体和产物的额外消耗。其次,通过引入NAM输入蛋白(BcNiaP)、β-NMN输出蛋白(BmPnuC)、PRPP合成酶(Prs)和烟酰胺磷酸核糖转移酶(Nampt),敲除调节蛋白PurR,工程菌N12’摇瓶发酵可积累0.34 g/L的β-
期刊
主动式相机重定位(Active camera relocalization,ACR)[1]是计算机视觉领域的一个新问题,由于它可以有效避免图像虚拟配准所导致的图像局部细节扭曲失真,近年来被广为应用于微小变化检测(Fine grained change detection,FGCD)[2]和高值目标场景监测任务。目前,尽管ACR问题的研究已经取得了丰硕的成果,但仍然存在两方面挑战从而限制了ACR问题
学位
近年来,三维重建作为计算机视觉中的重要核心部分之一,一直是非常热门的研究方向,随着计算能力的不断提高,三维重建在实际的应用中表现的非常出色,三维重建在古建筑复原,虚拟现实、智慧医疗和智慧城市等方面都发挥着重要的作用。激光扫描仪和雷达设备由于造价昂贵,使用成本很高,因此并不能普及应用,基于图像的三维重建以其低廉的获取方式正在快速的发展。本文利用增量式Sf M、半全局匹配等算法来初始化相机位姿和深度图
学位
移动边缘计算(Mobile Edge Computing,MEC)作为5G网络中的关键技术,通过在网络边缘部署计算和存储资源能够大大减少用户的响应延迟并提高用户的体验。但是,在多用户移动边缘计算系统中,由于MEC服务器的资源是有限的,随着设备数量的增加,MEC只能部署部分服务,并非所有用户都能通过任务卸载享受到延迟和/或降低能耗的好处。其次,如果不从全局考虑用户的卸载决策,每个移动设备“自私”地按
学位
近年来,由于科学技术的日新月异,石化机械设备也在逐步开始向生产的高速化方向靠拢,高频率使用也是其重要特点,但由于在其运用过程中难免会和各种原料接触,因此往往会出现锈蚀问题,如果不能及时对锈蚀问题加以妥善处理,轻则减少了装置的寿命,重则导致重大安全事故的发生。本文将对石化机械与设备的主要锈蚀因素加以分析,并以此为基础给出了防止锈蚀的对策与方案,以给广大石化从业人员提供理论依据。
期刊
深度学习的飞速发展使得基于深度网络的图像处理研究得到了突破性的进展。而最近基于学习的图像重定向方法也逐渐被提出,且相较于传统方法而言均得到了显著的进步。但是,在这个课题的研究过程中,仍旧不可避免的存在着两个极具挑战性的难题:(1)难以建立用于监督学习的ground truth数据集;(2)大多数方法都是基于特定的算子,不适用于具有不同风格特色的多样图像。本文首次解决了这些问题,提供了一种基于监督深
学位
随着各类社交媒体的日益普及,社交媒体的各类信息,如图片文字或者视频等以其传播速度快、获取渠道多、产生门槛低等特点迅速成为大众信息消费的热点。然而,这些特点也使虚假消息得以广泛传播。由于信息的不对称性,虚假消息可以通过社交媒体传播来误导不明真相的易感人群,可以造成不可估量的负面影响,甚至操纵社会舆论。虚假新闻已经成为关系到社会安定的重大问题。因此,对虚假新闻的检测越发成为近来的研究热点。假新闻检测研
学位
胶质母细胞瘤作为一类生长速度非常快的星型形状的脑部肿瘤,具有很高的恶性程度。这种肿瘤会对人的身体造成很大的伤害,甚至威胁人的生命。因此,胶质母细胞瘤的研究及预后对于人们有着重要意义。而胶质母细胞瘤的治疗方法因其分子亚型而异,为达到精准治疗的效果,越来越多的研究者开始研究胶质母细胞瘤的图像表型与分子谱之间相关性,其中磁共振图像是一个非常重要的工具,这种方法称为放射基因组学。但是目前很多研究是基于手工
学位
人脸表情包含人类丰富的情感信息,是人们表达情感的重要手段之一,在人们的日常交流中占据着重要的地位。人脸表情识别技术作为人类与计算机之间进行情感交流的方式,在人机交互、安全驾驶、智能医疗、智能审讯及远程教育等领域有十分广泛的应用前景。近年来,随着人工智能的不断发展,大量的科研供者投入到人脸表情识别的研究当中,使表情识别研究逐渐成为模式识别、机器视觉等领域中的重要课题之一。结合传统表情特征提取方法和深
学位