融合句嵌入的VAACGAN多对多语音转换

来源 :北京航空航天大学学报 | 被引量 : 0次 | 上传用户:zhang2jie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换.辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度.通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量.实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换.
其他文献
目的:了解大连市妇产医院卵巢肿瘤患者血清CA125水平及探讨CA125水平对肿瘤良恶性的诊断价值。方法:应用电化学发光法检测151例患者CA125水平。结果:卵巢良性肿瘤43例CA125值
城市生活圈对改善人居环境有着重要的意义.当前国内关于城市生活圈的研究与实践仍处于探索阶段.以淮安市淮海街道15分钟生活圈规划为研究对象,基于步行路径针对公共设施布局
A spectacularly exposed slump is described from a 120-m-long road cut between the villages of Kanod and Deva in the northeastern Jaisalmer Basin of Rajasthan,In
目的探讨肩袖损伤合并肱二头肌长头腱(long head of bicep tendon,LHBT)病变的危险因素及其对肩关节功能的影响。方法2016年1月至2020年1月接受手术治疗的肩袖损伤患者680例,男260例,女420例;年龄(56.1±8.7)岁(范围27~74岁)。左侧250例、右侧430例,主力侧436例,术前存在明确外伤者274例。Post肩袖损伤分型:部分损伤133例、中小全层损
由于电力系统的安全问题往往会造成严重的经济或社会影响,隐患检测已成为电力系统不可或缺的重要环节。随着人工智能领域的发展,基于深度学习的智能化电力系统隐患检测技术逐渐得到越来越多的关注。但目前的方法大多只是单一地考虑图像的全局特征或局部特征,无法全面彻底表征图像,进而难以捕捉电力领域尤其室外复杂背景下的隐患检测。为此,基于深度学习技术,提出了一种面向电力系统的多粒度隐患检测方法MGNet。通过引入图
鸡西矿业集团公司张辰煤矿西三采区3