端到端语音合成的语音风格迁移研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:guaodeshanying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术发展至今,人机交互方式几经迭代,从最早的键盘鼠标方式到后来的触屏手写再到现如今的智能语音交互方式,对人们使用智能科技产品和设备的友好度大大提升。语音合成技术作为智能语音交互过程中的重要一环,它的发展对提高人们体验智能设备的便捷性和舒适度有着举足轻重的作用。其中,个性化语音合成更是亟需攻克的技术难点。传统的语音合成技术采用前端-后端模型的架构,需要分别对前端和后端模型进行详细设计,其中引入了大量专家知识,即需要有一定的语言学和声学的知识背景支撑。本文采用了端到端语音合成模型作为研究个性化语音合成技术的基线模型,该模型的设计不需要拥有特定领域专家知识。本文在端到端语音合成模型的基础上,进行结合说话人迁移的语音风格迁移研究。本文使用Tacotron2特征预测模型和WaveRNN声码器,并加入了语音风格迁移模块,使用多个全局风格令牌表征语音的全局风格信息,每个令牌表征不同层面的风格信息,再通过组合不同权重占比的令牌,得到语音的全局风格信息表征,将全局风格信息送入Tacotron2特征预测模型用于预测声学特征,最后通过WaveRNN声码器合成指定风格的语音。实验结果证明语音风格迁移模型可以在指定风格参考语音的基础上合成与参考语音风格高度相似的语音。为了生成训练数据集外音色的语音,本文在语音风格迁移模型的基础上加入了文本无关说话人鉴别网络,用于提取不同发音人的音色表征,送入语音风格迁移模型用于控制合成语音的音色表示。实验结果证明在指定说话人特征参考语音和风格参考语音的基础上,结合了说话人迁移的语音风格迁移模型可以合成指定说话人音色并且与风格参考语音在风格上高相似度的语音。
其他文献
形状记忆合金经过长足发展,现今投入使用的已包括Ni-Ti基、Cu基和Fe基形状记忆合金。其中,Cu基形状记忆合金因其低成本和较好的切削加工性而备受关注。传统凝固法制备的Cu基合金一般为多晶结构,不可避免具有多晶脆性,后续的固溶处理还可能会获得更粗大的晶粒,这就进一步加剧了合金的脆性。目前改善多晶脆性的方法通常为细化晶粒、降低母相有序度和制备单晶。本文以制备单晶为目的,通过在Cu-Al-Mn基合金中
盾蚧是红树林重要害虫类群之一,在福建、广西等地红树林中危害严重。目前,现有的红树林盾蚧研究主要集中于盾蚧种类鉴定、种群动态及生活史等方面,对红树林盾蚧的种类调查、发生规律和危害研究较少。因此对本论文以秋茄红树林为主要研究对象,综合运用野外调查方法、分子标记技术、植物生理学及转录组学分析方法等,详细地研究秋茄红树林内的盾蚧种类、数量动态规律及其影响因素,对红树植物的危害等,全面探究红树林中的盾蚧危害
目的:评价PPI联合使用SSRI对咽喉反流性疾病(laryngopharyngeal reflux disease,LPRD)合并抑郁(depression)症状患者的疗效是否优于单纯抑酸治疗。方法:对耳鼻喉科门诊可疑LPRD合并抑郁症状的患者采用反流症状指数量表(reflux symptom index,RSI)、反流体征评分量表(reflux finding score)以及抑郁自评量表(se
本文针对多源融合导航定位系统提出完好性监测技术,完好性反映的是系统的稳定性和安全性问题。定位技术发展到现在,面对室内室外各种复杂的定位场景,仅靠某种单一的定位技术已经远不能满足人们的定位需求。目前,将多项定位技术的优劣势进行互补,形成多源融合导航定位技术,已成为定位领域的热门研究主题,同时多源融合导航定位技术也已经广泛应用于各大领域。在多项定位技术中,视觉定位技术因其精度高、成本低、不受信号强弱影
深度卷积神经网络(CNNs)的强大性能是依赖于其庞大的参数量和计算量而产生的,但是这两个特点反而成为了限制卷积神经网络的进一步发展的瓶颈。近年来,越来越多的研究关注如何对卷积神经网络进行压缩与加速。目前的神经网络压缩与加速方法大多采用直观的压缩方案,没有去理解神经网络的内部原理,挖掘冗余性存在的原因和位置。因此,本文提出压缩神经网络前应先分析其内部的工作原理和机制,并基于神经网络的可解释部分来进行
随着人类命运共同体理念逐渐深入人心和“一带一路”倡议的稳步推进,小语种教学在教育对外开放中的作用愈加不可或缺。现实需求催生了中学小语种教育的蓬勃发展和教师队伍的不断壮大,然而在现实中,非师范出身的中学小语种教师入职后往往需要面对身份定位不清晰、以及由此导致的专业发展路径模糊等诸多困境。因此,中学小语种教师身份认同研究对小语种教师的专业发展和小语种教育的优质发展具有重要现实意义。本研究以中学小语种教
芳香化合物是一类重要的化工产品,广泛应用于生产农药、医药、香料和聚合物材料等。为减轻芳香化合物生产对石油资源的依赖,利用生物质基平台化合物制备芳香化合物逐渐成为研究热点,这对于减少环境污染、保护能源安全具有重要意义。本论文以生物质基呋喃衍生物为原料,通过化学催化转化手段,开展呋喃衍生物经Diels-Alder和脱水反应制备可再生芳香化合物的研究。首先,利用SAPO-34分子筛催化2,5-二甲基呋喃
声纹识别属于生物认证技术的一种,相比于其他生物认证技术具有认证方式简单、设备成本低等特点。虽然深度学习在声纹识别问题上取得了巨大的成功,但由于其巨大的存储与计算开销,阻碍了它在资源有限环境中的应用。本文主要研究资源有限下声纹识别的工程化应用问题。首先,针对仅有少量注册人数据可利用的声纹识别问题,本文设计一个一对余(One vs Rest,OvR)神经网络模型用于身份认证。在一个文本相关的自建数据集
随着信息技术行业迅速发展,平板显示产品在人们的日常生活中起到了越发重要的作用,给人类带来了极大的便利,在人机交互领域占据了重要地位。作为当前市场的潮流,小间距LED显示屏具有亮度高、视角广、寿命长、故障率低等特点。作为未来发展的方向OLED显示屏还具有厚度薄、色域广、分辨率高、对比度高、响应时间短、可弯曲等特点,已经逐步开始在产品中应用,受到广泛欢迎。尽管LED显示屏的优点是高稳定性,但在长时间工
随着半导体技术的快速发展,传统晶体管器件的特征尺寸不断微缩到达物理极限,实际发展速度已经落后于摩尔定律的预测速度,这对半导体技术的进一步发展带来了很大的挑战,如尺寸缩小带来的短沟道效应及功耗等问题。为了解决这些问题,各种新材料、新结构不断地被开发研究。无结场效应晶体管和负电容场效应晶体管就是其中的佼佼者。本论文在混合沟道无结场效应晶体管的制备基础上,引入氧化铝铪铁电材料的负电容效应,设计仿真了一种