基于深度学习的中文语音合成技术研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:cbladerunner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成作为如何将机器智能化的关键研究领域,旨在解决如何让机器发声的问题。随着社会智能化程度越来越高,智能语音设备已经融入了人们的生活,机器发声的质量变得越来越重要。近年来深度学习技术不断发展,研究人员将深度学习技术应用于语音合成领域,使生成语音的质量相比于传统的语音合成技术有了很大的提升。但是目前仍然存在一些问题,比如:研究主要集中在英语领域,中文语音合成还有很大的探索空间;合成语音的自然度还有待提高;对个性化语音生成要求较高等。本文围绕以上问题,基于深度学习技术对中文语音合成进行研究,主要工作和贡献如下:(1)在中文语音合成数据方面,提出了一种中文语音数据集的制作方法并制作了一个中文语音合成数据集。本文充分利用网络上大量高质量的语音数据源且在制作中引入一些自动化方法,利用该方法制作了一个名为CFNAS的高质量的中文语音合成数据集,并基于Transformer模型实现了高自然度的语音合成,验证了CFNAS数据集的有效性。与传统的语音数据集制作方法相比,本文提出的方法在提高制作效率的同时降低了制作成本。(2)在提升合成语音质量方面,为了减少中文语音合成中的出错,本文在模型中引入了局部注意力机制,指导模型更有效的学习输入文本与语音帧之间的对齐。实验表明基于局部注意力的Transformer模型可以有效的减少合成句子中的跳词、重复、韵律不自然现象并且有效提升了模型在长文本合成时的表现。(3)在基于少量数据的个性化语音合成方面,本文提出了两种解决方法。第一种是自适应训练方法,使用约10分钟的目标说话人语音数据在一个预训练模型上进行自适应训练即可,无需改动模型,实现简单且合成的语音相似度高。第二种基于说话人编码方法,使用目标说话人几秒钟的语音数据经过说话人编码网络进行特征提取,然后与语音合成模型融合,网络就可以根据提取的目标说话人声音特征进行个性化语音合成。该方法在训练过程中需要大量的多人语音数据但是大大降低了对目标说话人数据量的需求,且一个模型可以适用于所有说话人。综上所述,本文研究与实现的中文语音合成方法在一定程度上提升了中文语音合成数据集的制作效率和合成语音的质量,另外提出自适应训练和说话人编码两种基于少量数据的个性化语音合成方法,有较强的应用价值。
其他文献
随着生物医学技术的发展,研究人员需要花费大量的时间挑选遗传风险相关文献并对其进行遗传风险信息的抽取,因此,自动化分类遗传风险文献并抽取遗传风险关系是生物医学领域的重要课题。遗传风险研究文献散落在海量生物医学文献中,且医学文献的专业度高,需要专业的研究人员才能分辨;同时遗传风险关系在医学文本中有论元分散、多位点共存的问题存在,给现有的遗传风险信息抽取带来很大的挑战。基于以上背景,本文研究了基于医学文
呼吸道合胞病毒(Respiratory syncytial virus,RSV)是一种不分节段的负链RNA病毒(Single-stranded,non-segmented,negative-sense RNA viruses,NNSVs),属于单分子负链RNA病毒目(Mononegavirales),肺炎病毒科(Pneumoviridae)。RNA在有效地折叠到特定结构和在结构构象之间转换方面面临
学位
防治工程作为泥石流灾害治理中至关重要的环节,总体上可分为岩土防治工程和生态防治工程两大类。目前泥石流灾害的防治主要以岩土工程措施为主、生态工程措施为辅,忽略了生态防治工程在泥石流治理中所起的重要作用,进而导致工程措施的治理效果深受工程寿命影响,影响效益的持续发挥,且对二者综合作用的探讨更是少之又少,因此本研究主要对岩土防治工程、生态防治工程以及二者综合作用的治理效果展开深入研究,得到以下主要结论:
近年来,随着深度学习技术的不断发展,将深度学习技术应用于医学影像的诊断中是目前应用最为广泛的场景。磁共振成像(MRI)技术是一种无损伤、高分辨率的医学影像检查方式,已被广泛应用在临床诊断中。但在常用于评估肝脏和脑部肿瘤性疾病的病变、组织生理性质的动态对比度增强磁共振成像(DCE-MRI)检查中仍需为患者注射含钆对比剂,而含钆对比剂的使用存在一定的风险。为此,本文提出基于循环生成对抗网络(Cycle
近年来,大宗商品交易市场日渐繁荣,牵涉到的商品种类丰富,且具有交易数量大、价格波动大、交易风险大等特点,对交易监管带来了巨大的挑战。尤其是在实际的监管过程中,存在监管时间范围设置模糊、随机选取,以及监管商品范围设置单一、指向不明确等问题,造成了监管资源的浪费以及监管结果的偏差。本文对以上问题进行了监管时间粒度优化和监管商品粒度优化研究,并开发对应的系统进行算法的部署和功能模块的集成。首先,本文研究
随着消费级基因检测产业的发展,人们对自己基因数据所能够揭示的祖源信息越来越关注。目前消费级基因检测的产品对于祖源信息的挖掘主要集中在以下两个方面:利用单倍群遗传信息对用户古代祖先的迁徙信息进行推断;利用IBD检测对用户与其他人的基因关系进行计算,从而找出具有较近共同祖先的其他用户。然而,由于家谱信息的缺失以及基因数据量较少的问题,无法估计近两百年内的家系迁徙历史。因此,如何利用基因数据对用户的近代
青藏高原作为地球“第三极”,占我国陆地面积近四分之一,平均海拔在4000m以上,是世界上海拔最高、地形最复杂、面积最大的高原冻土区。高海拔以及多年冻土的存在,使位于青藏高原多年冻土区的高寒生态系统极为脆弱,对全球气候变化尤为敏感。过去50年间,青藏高原多年冻土区增温速率与增温幅度明显高于北半球及全球平均水平,气候变暖加速冻土融化,改变土壤冻融过程,对高寒生态系统产生深远影响。在多年冻土区研究高寒生
随着气候变化及人口的不断增加,农业用水供需矛盾日益增加。紫色土土层浅薄,降雨季节分布不均,季节性干旱、洪涝频发,水分为紫色土坡耕地作物生长的重要限制因子。作为长江中上游地区重要的粮食产区,紫色土区作物对不同水分条件的水分利用特征还未得到系统研究。本论文利用涡度相关系统研究了2014-2018年期间农田生态系统蒸散发和水分利用效率变化规律,在对比分析夏玉米和冬小麦农田耗水特征的基础上,选择易受季节性
滑坡灾害已成为一个全球性问题。如果它发生在人口密集区,那么它将会对基础设施和人民的生命财产安全造成严重危害。然而对于滑坡的易发评价和典型失稳机理的研究还处于发展阶段,如何有效的建立灾害易发等级及其对应区域内的灾害机理对于防灾减灾具有重要意义。在滑坡灾害频发区,对斜坡稳定性和落石灾害的影响进行数值模拟研判,可以为滑坡的风险评价提供有益的参考。喀喇昆仑公路是连接中国和巴基斯坦的重要经济廊道。但在强烈的