基于深度学习的语音合成中时长建模算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wolf12066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成(Text to Speech,TTS)是指从文本到音频的生成,具有非常广泛的应用场景。近年来,人机交互需求的增长对合成语音的质量也提出了更高的要求。随着神经网络的发展,语音合成从传统的统计参数估计逐渐转变为基于深度学习的序列建模方法。合成过程通常包括使用声学模型从文本前端得到声学特征,然后使用声码器从声学特征生成波形。在声学模型的研究中,时长建模是一个非常关键的问题,它很大程度上影响了合成语音的发音正确性和自然度。目前语音合成领域缺乏对时长建模问题的综述研究,并且已有方法的序列对齐性能有待提高。因此,本文提出对声学模型中时长建模进行深入研究,并提出了基于不同粒度注意力机制的优化对齐算法。同时,已有的声学模型生成的频谱往往与真实频谱还存在时长和细节上的差距,因此本文提出基于概率扩散模型的声学模型后处理算法。总体上,本文主要的工作与创新点如下:1.提出一个对声学模型时长建模的研究体系,详细分为时长的提取、预测和使用三个方面。首先,本文分析并对比了对文本与音频对齐获取的已有方法,从时长的数值精度和合成语音的自然度两方面进行评估。其次,对比了已有的和新提出的时长预测方法,对不同结构下的时长预测精度和合成语音自然度进行分析。最后,根据已获得的时长信息,探究了基于简单平铺和高斯上采样两种方式,分别对生成频谱和波形序列的影响。2.提出一个基于不同粒度注意力的优化对齐算法(Varigrained Attention,VGA)。考虑到时长建模需要兼顾稳定性和灵活性,本文将时长预测和注意力机制结合,设计了在不同粒度上通过注意力方式实现自动对齐的计算方法。经验证,该方法在不同解码器上都可以实现文本到音频的对齐优化,并在对比自然度评价中取得显著增益。3.提出一个基于概率扩散模型的声学模型后处理算法(Diffusion Post-Filter,DPF)。为了解决声学模型合成频谱过平滑的问题,本文设计了使用概率扩散模型的方法,通过对扩散空间和噪声估计网络的设计,实现了对频谱的细节优化。最后,本文还提出将VGA和DPF结合,从而同时优化频谱细节和内部对齐,实现了对声学模型合成质量的进一步提升。
其他文献
分泌型磷脂酶A2(secretory phospholipase A2,sPLA2)在调节细胞脂质代谢和信号传导中具有重要作用,参与了多种急、慢性炎症反应。研究sPLA2家族成员之间共有和特异功能背后的结构动力学机制具有重要的生物学意义。本工作利用一系列基于序列、结构和动力学的方法对130个sPLA2家族成员进行了研究。(1)首先通过主成分分析(principal component analys
学位
随着计算机科学,人工智能等相关领域的突破,自动驾驶技术也得到了迅猛发展。在自动驾驶相关技术中,先验地图是必不可少的一个元素。现阶段,大部分构建先验地图的数据是通过配备有激光雷达的数据采集车获得的点云数据,但是激光雷达传感器的价格高昂且安装配置困难,很难在车辆中大规模普及。为了使先验地图构建过程更为高效快捷,本文提出了无监督高分辨率视觉地图构建系统,主要的工作和创新成果如下:1.基于深度学习的无监督
学位
心房颤动(Atrial Fibrillation,AF)是临床上常见的心律失常疾病,严重影响着患者的健康。导管消融治疗房颤已成为临床主要手段,其原理是通过电磁热使心肌组织发生不可逆性坏死,从而阻断异常电信号传导。临床中消融部位的心肌组织厚度约为1.4-7.7 mm,若要达到透壁消融则需精确预测心肌组织的消融深度。微波消融术可在短时间内产生更大的消融深度,更适合用于治疗房颤。但由于心肌组织的复杂性以
学位
生物神经系统是结构极其复杂的非线性系统。近年来,细胞外放电采集技术向高精度、多通道、高采样率不断发展,为重建潜在神经回路的神经解码研究提供了可能性。基于神经元的放电记录,有多种方法可以用于估算神经元之间的耦合关系,从而构建完整的神经信息通路。然而,神经元放电数据量通常较大,不同种类神经元的模型结构和参数也有区别,放电活性也不尽相同,这使得神经元耦合强度估计算法存在计算资源消耗大、机理可解释性不强、
学位
膜生物反应器污水处理工艺以膜组件取代传统生物处理技术的二沉池,是一种由活性污泥法与膜分离技术相结合的污水处理技术。随着膜技术的不断成熟,膜生物反应器在城市污水处理中得到广泛应用。然而,在膜生物反应器污水处理过程中,膜污染问题不可避免,会导致运行成本增加、膜生物反应器寿命减少、甚至整个污水处理过程瘫痪,阻碍膜生物反应器平稳运行。为了降低膜污染的发生率,确保污水处理过程的长期稳定运行,对膜污染问题的准
学位
作为行人追踪技术中的关键一环,行人重识别旨在通过不同的摄像头识别同一个人的图像。近年来,随着深度学习技术的发展,行人重识别研究取得了很大的进展,并在刑侦、安防、新零售等方向商业化落地应用。然而,由于模型性能在线评测、无监督模型更新等关键技术的缺失,导致无法构建在线自主运维行人重识别系统,阻碍了该技术的大规模推广应用。针对以上问题,本论文深入研究了网络模型批量归一化(Batch Normalizat
学位
随着机器人技术的发展,人类对其智能性和自主性有了更高的要求。特别是面对未知环境时,例如在灾后救援和地形勘探等场景中,人员直接进入容易出现意外。为避免这种情况,需要机器人在没有先验信息时,对未知的环境进行自主探索并且建立三维模型,方便进行下一步的工作。目前针对该领域的研究集中在轮式机器人上,但是上述场景的地形较复杂,轮式机器人的运动能力有限,无法有效完成探索任务。因此本文使用四足机器人,它有着强大的
学位
镀锌板由于其优良的耐腐蚀性能,广泛应用于汽车制造、包装、桥梁建筑及工业设施等众多领域。焊接作为镀锌板一种连接和成形工艺,在镀锌板的广泛应用中发挥着重要作用。随着基材强度等级的提高,激光焊接以较小的热输入和更窄的热影响区逐渐成为镀锌薄板重要的焊接方式,但是镀锌层的存在给镀锌板激光焊接带来了一定挑战,激光焊接过程中锌层的剧烈蒸发严重破坏了焊接过程的稳定性,焊缝极易出现穿孔和气孔缺陷,尤其当板厚减小时,
学位
由于传统工业机器人过于昂贵和重型,不适用于对中小型企业的部署和非工业场合下的应用。这在一定程度上阻碍了机器人技术的发展和推广。作为工业级机器人的小型、轻量和低成本的典型应用,桌面级机器人在近几年引起了广泛重视。桌面机器人主要应用于部署灵活、反应快速的柔性化工作环境中,本课题以多轴机器人工作站为核心,分别从ROS控制平台搭建、正逆运动学、笛卡尔空间规划和机械臂路径规划算法等方面开展研究工作。理论仿真
学位
癌症是一种严重威胁人类健康和生活的恶性疾病,抗癌药物的研发迫在眉睫。蛋白激酶CK2(Protein kinase CK2)因调控多种细胞生理过程而被认定为重要的抗癌药物靶点。然而,其多数ATP竞争性抑制剂因存在选择性差及成药性低等缺陷而未能成为候选药物,因此,具有高选择性及高成药性的新型CK2抑制剂仍亟待研发。本论文针对丙烯酮骨架,整合定量构效关系及定性分类研究、药物合成及生物学实验等研究策略,开
学位