融合U-Net架构的One-shot语音转换算法及损失函数研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:shipeicheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一种将感知到的说话人身份从源说话人转换为特定目标说话人的语音处理技术。目前,语音转换技术在很多领域都展现出了广阔的应用前景,如个性化语音合成、影视配音、语音修复等。随着深度神经网络技术的发展,基于非平行的语音转换研究愈加受到研究者们的关注,而其中的One-shot语音转换以其能够自适应任意说话人的语音信息,实现开集转换的特性,成为了近两年新的研究热点。目前,One-shot语音转换主流的方法是通过语音表示解纠缠的方法来实现任意说话人之间的转换。但相关工作中,由于在说话人信息和内容信息分离的过程中,忽略了信息之间的依赖性,使内容信息泄漏到说话人信息中,导致“信息泄露”问题,造成转换后语音音质低;同时从一个看不见的说话人的语音中提取说话人信息的稳定性不足,因此转换语音的说话人相似度也有待进一步提升。针对上述One-shot语音转换存在的问题,本文在现有的工作的基础上,提出了相关的改进算法,来缓解上述问题,从而改善转换性能。首先,为了改善转换后合成语音音质,缓解“信息泄露”问题,本文提出了融合U-Net架构和互信息的语音转换方法。在典型的语音转换模型AdaIN-VC中融入了 U-Net架构,并在训练过程中引入了互信息度量。一方面,是为了减少说话人信息和内容信息的依赖性,实现信息的适当分离,提高转换音质;另一方面,由于U-Net架构在频谱重构方面的优异性,也有助于进一步改善音质。实验表明,相较基准模型AdaIN-VC、VQVC+和AGAIN-VC,本文提出方法的转换语音在音质上有所提高。在客观评测中,平均MCD值分别降低了 3.82%、2.32%和1.10%,语谱图在纹理细节上也更接近目标说话人;而在主观评测中,平均MOS值分别提升了 6.18%、3.47%和1.38%。同时,由WER值表明,提出的方法对于缓解“信息泄露”问题是有作用的。其次,为进一步提升转换语音的说话人相似度,本文在融合U-Net架构和互信息的语音转换方法中引入了三元组损失,来优化模型编码器提取说话人信息的能力。实验表明,在引入三元组损失后生成语音的相似度得到提高。本文进一步的改进方法相较于基准模型AdaIN-VC、VQVC+和AGAIN-VC,转换后语音的平均ABX值分别提升了 9.22%、6.70%和4.83%。所以,本文提出的方法较基准模型在转换性能上有不错的提升,对于One-shot语音转换的研究也是有帮助的。
其他文献
我国现行法律对撤销缓刑的规定比较少,导致在司法实践中涉及撤销缓刑的很多问题都存在较大争议。尤其是针对撤销缓刑的条件、时间等并不明确,需要对以下问题进行重点的研究和分析确定:缓刑考验期满后发现,缓刑考验期间实施新的犯罪或者有违反相关规定应当撤销缓刑的,或者在缓刑判决前存在漏罪的,是否应当撤销缓刑;违反监督管理规定受到治安管理处罚仍不改正应当如何理解;其他违反有关法律、行政法规和监督管理规定中"情节严
会议
<正>产业园区是承接产业转移、加速产业集聚、培育产业集群的重要载体和平台。园区经济发展潜力巨大,前景广阔,是当前及今后一个时期新的经济增长点。在产业园区的发展中,园区物业管理服务具有支撑、引导的重要功能,发挥着不可替代的作用。高品质的园区物业服务,能够提高园区的品质和形象,进而吸引更多的优质企业和人才入驻,推动园区的可持续发展。因此,必须因势利导,不断深化、优化园区管理服务,创造更好的条件,以推进
期刊
<正>产业园区担负着聚集创新资源、培育新兴产业、推动城市化建设等一系列重要使命。面对蓬勃发展的产业园区经济,以及日新月异的产业园区,物业服务企业则需要主动作为,提升物业服务水平,提高核心竞争力,提供特色服务,以更好地服务于产业园区。前瞻性运作,满足客户期望“上医,医未病之病”,前瞻性的管理及服务对产业园区物业管理至关重要。
期刊
2016年,批判性思维被纳入中国学生发展核心素养体系,再度走入研究者的学术视野。如何开发本土化、学科化的批判性思维测评工具已当前的研究热点。本研究以自主建构的地理批判性思维指标体系为基础,开发出一套地理情境试题作为测评工具,调查高中生的地理批判性思维现状,以期有针对性地提出培养策略,探索如何在地理教育中提升学生的批判性思维水平,促进高中生核心素养的稳步发展。研究在梳理文献的基础上提出了地理批判性思
学位
作业系统作为地理教材的重要组成部分,承担着培养学生地理核心素养的重要任务。由于我国对中学教材的印张、字数等有统一要求,地理作业系统编排往往不能完全满足课程标准要求。因此,坚持课标为本、强化教材运用成为当前地理教师作业系统实施的关键。然而,目前地理作业系统的研究存在系统性不足、深度性不够、实践性不强的问题。正所谓“梅花优于香,桃花优于色”,为弥补地理作业系统研究的不足,本文以中外地理教材的作业系统编
学位
陆地棉(Gossypium hirsutum L.)是一种起源于热带和亚热带地区的喜温作物,对低温较敏感。西北内陆棉区是我国最大棉区,为充分利用春季光热条件,北疆棉区普遍采用地膜植棉,以提前棉花有效播种期。但春季新疆强冷空气活动频繁,在棉花播种期及苗期易出现短暂0℃以下的低温天气,造成棉花的烂种、烂根、死苗和发育滞缓等伤害,导致缺苗、断垄、晚发,降低产量和品质。因而,筛选、培育苗期抗冻性较强的棉花
学位
在梯田的建设规划、验收统计和效益评估过程中,及时、精准、客观地提取出梯田的面积、类型和地理空间分布,是实现水土流失动态监测、农业精准化管理的核心环节。本文针对在遥感影像梯田地理要素智能提取过程中精度低、效率慢等问题,以浙江省杭州市桐庐县、云南省昭通市巧家县、鲁甸县部分区域的典型梯田要素为例,采用卷积神经网络和基于Transformer注意力机制网络进行梯田地理要素提取,以期充分利用遥感影像可见光与
学位
本研究通过观察蒲公英多糖(dandelionpolysaccharide,DP)对人三阴性乳腺癌MDA-MB-231细胞的增殖、迁移和侵袭的影响,探讨DP抑制乳腺癌细胞的分子机制。用DP处理人乳腺癌MDA-MB-231细胞及正常乳腺上皮细胞MCF-10A后,采用CCK-8方法检测不同浓度的DP(0、100、200、400、800μg/mL)对细胞活力的影响;采用平板克隆实验检测DP对乳腺癌细胞克隆
期刊
现如今,在健康生活和品质生活的趋势下,人们越来越注重家庭的用水健康。厨房作为家庭中重要的用水场所,通常会具备多种水处理产品和用水设备,以满足用户的多元化用水需求,但随着用户对该类产品的增添,会在产品的选择、安装、使用和收纳等方面产生困扰。在此背景下,本课题将引入集成创新理念,对用户所需的水处理产品和用水设备进行集成设计,以形成厨房水处理中心,满足厨房用水需求并缓解用户、产品、空间三者间所存在的矛盾
学位
教育信息化是教育现代化的重要标志,是建设高质量教育体系的重要支撑。为准确反映教育信息化发展水平,支撑科学决策,有必要对一个区域的教育信息化发展水平进行整体评估。教育信息化评估系统是开展评估的重要支撑,有助于全面分析学校教育信息化设备配置建设及应用、教学资源开发与应用、学生信息素养、教师信息素养等发展水。随着信息技术的发展,评估系统也在不断完善,国内外的各级教育信息化评估项目都采用了不同的评估系统和
学位