基于改进的BLFW下平行和非平行文本的语音转换算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ji55643212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音信号处理领域,语音转换是指将一个说话人(源说话人)的语音转换成听起来像另一个说话人(目标说话人)的所发出的语音,同时保持语义不变。语音中包含着丰富的信息,包括语义信息、个性信息、语言信息和情感信息等,而语音转换主要关注点在于语音的声学本质特征:频谱特性和韵律特征。在语音转换的多种应用场景中,如娱乐和跨语言转换应用中,需要语音转换系统能够提供高质量的语音和实现非平行文本下的语音转换。现有的语音转换系统面临着两个主要问题:一方面是转换后的语音不能同时获得较高的相似度和较好的音质效果,而不得不在转换后语音的相似度和音质上权衡,另一方面是转换函数的训练依赖于平行语料,限制了语音转换系统的通用性。首先为了实现较高音质和相似度转换的语音转换,本文提出基于自适应高斯分类的双线性频率弯折加幅度调节算法,它采用自适应高斯分类更好地对语音的声学特征分布建模,在实现合理分类的基础上进行语音转换。经过主观和客观评价,本文提出的方法比固定的分类数的双线性频率弯折加幅度调节算法转换后的语音的平均MOS值提高了4.7%,平均MCD值降低了2.7%,这说明本文提出的方法对语音转换系统的性能有一定的改进。其次,为了解决语音转换方法对平行语料的依赖,本文使用基于单元挑选和声道长度归一化的方法对非平行语料进行对齐,然后将基于自适应高斯分类的双线性频率弯折加幅度调节方法应用于非平行文本下的语音转换领域。经过主观和客观评价实验对比,证实这种方法比非平行文本下INCA方法的转换后的语音的平均MOS值提高了7.1%,平均MCD值降低了4.0%,表明转换后的语音音质更好,相似度更高。而与传统的平行文本下的高斯混合模型语音转换方法相比平均MCD值高了5.1%,平均MOS值低了3.9%,表明其转换性能仍有一定的差距,但是本方法是在非平行文本条件下开展的,具有更强的通用性。
其他文献
针对载体行进间对准过程中由于杆臂误差所造成的对准结果偏差问题,通过分析杆臂误差的产生机理,提出采用力学方程的方法对杆臂长度进行测量,并将测得的杆臂长度代入到力学方
小学是学生正式进入校园的第一个阶段,在小学的校园中,学生们不仅有能够进行文化知识学习的学科课程,还有各种各样学生们喜闻乐见的校园活动。而校园活动则会对学生的社会化
医院质量与安全是医院生存与发展的生命线,是医院管理的永恒主题。医院应结合各项工作实际,强化现代质量管理方法和工具的科学运用,对原有质量与安全管理体系进行梳理完善,实
进境邮寄物由于具有批次多、来源广、检疫风险高的特点,一直以来都是口岸检疫关注的重点和难点。随着跨境电子商务的迅速发展,依托进出境寄递方式开展的新型贸易,带来了更大
总结2例冠状动脉造影术后发生皮质盲病人的转归及护理经验。护理的要点在于积极配合医生完善头部CT以及头颅核磁共振成像(MRI)、眼底检查,遵医嘱予补液利尿、改善微循环、扩
为精准落实就业脱贫措施,贵州坚持以岗定搬、以产定搬,落实一户一人以上就业目标要求,同时实行搬迁劳动力全员培训机制,确保贫困群众搬出后有业可就、有事可做、有钱可赚。
国家经贸委副主任陈清泰日前称,今年上半年,若干城市“优化资本结构”试点工作开局良好,在推进企业兼并、破产方面取得了不少重大突破,试点开始向广度和深度方向推进。陈清
添加微生态剂后,试验Ⅲ发情率为88%,分别比试验Ⅰ、试验Ⅱ、试验Ⅳ及对照组提高了22.22%(P<0.01)、10%(P<0.05)、10%(P<0.05)和29.41%(P<0.01),在受胎率方面,试验Ⅲ分别比试
作为人类生存基本之一的住宅,在我国正逐步从解困型、安居型向小康型发展.以往仅考虑普通照明和一般家用电器的住宅电气设计,已远不能满足人们生活水平日益提高的需要.这些变
目的:探讨阿莫西林钠克拉维酸钾联合头部亚低温治疗新生儿缺血缺氧性脑病(HIE)伴肺部感染的临床疗效及安全性。方法:将80例HIE伴肺部感染的患儿按随机数字表法分为观察组(42例)和对