基于基频差异补偿的StyleGAN情感语音转换研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:fujilee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是一种在保持源说话人语义信息不变的前提下,将源说话人个性特征转换成目标说话人个性特征的智能语音技术。得益于人工智能技术的快速发展,语音转换技术不断突破瓶颈,并逐步完成商业场景落地,给人们的生活带来许多便利,但是仍面临一些问题。首先,传统语音转换方法主要关注说话人个性特征转换,较少注意到说话人情感转换。其次,为了得到更好的性能,模型需要大量数据参与训练,然而,在实际应用中,采集目标说话人的充分语料较为困难。最后,大多数情感语音转换方法注重于频谱特征转换,而对于基频特征,仅通过对数高斯归一化函数进行转换。本文在Star GAN模型基础上针对上述问题进行了情感语音转换的一系列研究和改进。首先,本文提出一种基于StyleGAN-EVC模型的情感语音转换方法。使用情感风格编码器提取语音的情感风格特征,相较于Star GAN模型中使用的one-hot向量,情感风格特征表达的情感信息更丰富。同时,通过自适应实例归一化,将提取的情感风格特征与由生成器编码网络提取的语义特征充分融合,从而实现情感的转换。此外,通过循环一致性损失和情感风格重构损失在联合优化过程中对情感风格编码器的约束,使其能有效地提取情感风格特征,并通过自适应实例归一化使语义特征自适应地匹配情感风格特征,将闭集情形下的情感语音转换拓展到开集情形,且对训练数据没有标签要求,向实际应用迈出了关键的一步。充分的客观和主观实验表明,在闭集情形下,本文提出的StyleGAN-EVC模型相比于基准Star GAN模型,转换语音的MCD值平均下降15.23%,RMSE值下降8.68%,MOS上升36.76%,情感分类率增加12.50%,验证了本文提出的StyleGAN-EVC模型不仅能够提升转换语音的质量,而且对转换语音的情感饱和度也有一定的改善。与闭集情形相比,开集情形下的StyleGAN-EVC模型的性能略有下降,转换语音的MCD值平均上升0.95%,RMSE值上升0.35%,MOS降低0.81%,情感分类率减少1.88%,验证了本文提出的StyleGAN-EVC模型能够在基本不损害转换语音的质量和情感饱和度的前提下实现开集情形下的情感语音转换。进一步,为了增强转换语音的情感饱和度,本文在StyleGAN-EVC模型基础上,提出一种基于基频差异补偿的StyleGAN-EVC模型的情感语音转换方法。目前大多数情感语音转换方法中,基频特征仅通过对数高斯归一化函数进行转换,但转换后的基频特征呈整体上升趋势,且均值和均方差两个参数无法准确描述两种情感之间的幅度差异。鉴于此,本文引入基频差异补偿向量,通过对采用对数高斯归一化函数转换后的基频特征进行调整,补偿扩大两种情感之间的幅度差异,从而提升转换语音的情感饱和度。充分的客观和主观实验表明,本文提出的基于基频差异补偿的StyleGAN-EVC模型相较于基准StyleGAN-EVC模型,转换语音的MCD值未改变,RMSE值下降9.21%,MOS上升2.44%,情感分类率增加5.00%,验证了本文提出的基频差异补偿向量对提升转换语音情感饱和度的有效性。综上所述,本文通过使用情感风格编码器和基频差异补偿向量,显著提升了转换语音的质量和情感饱和度,且能在基本不损害转换语音质量和情感饱和度的前提下实现开集情形下的高质量情感语音转换。
其他文献
随着科学技术进步与人类经济社会的发展,各类电子传感装置已被广泛应用,伴随着人民生活水平的提升,智能手机、智能手表等智能装置也将越来越流行。人类普遍携智能装备外出,旅行方式也越来越多样化,包括普通的走路、骑马、驾车,在都市中都搭乘公共汽车、轨道交通,长距离旅行时搭乘列车、航空客机等交通工具。此时,各种传感装置采集到海量的轨迹信息,通过挖掘这些轨迹信息,能够获取很多有价值的资讯,并可广泛地用其服务于活
学位
数字经济的发展促进了数据要素在不同市场及市场中各个主体间的流动分配,数字化转型为企业与外部提供了信息沟通渠道,增强了企业数字治理能力。通过选取A股上市公司2014—2020年面板数据为研究样本,从微观主体和宏观区域双视角探寻数字化转型能否缓解市场价值对内在价值的偏离程度。研究结果表明,企业数字化转型能显著降低股票市场价值对内在价值的偏离程度,在数字经济发展水平越高的地区,这种影响作用越显著;进一步
期刊
由于面部表情是人类传递情感和状态的重要形式,表情识别已成为人工智能领域不可或缺的一部分,也是计算机视觉最热门的研究领域之一。随着深度学习的浪潮爆发以来,计算机视觉和机器人技术取得了长足的进步,但是表情识别领域的难题仍然亟待解决。近年来,一系列表情数据库的建立,为基于深度学习的表情识别提供了源动力,推动了这个领域的飞速发展。表情识别数据库可分为两个大类,一个是实验室环境的表情数据库,一个是真实环境的
学位
电致化学发光(ECL)生物传感方法是一种基于生物分子识别引起ECL信号响应实现检测的方法,其中以生物活性分子作为识别元素,以ECL试剂/材料作为信号指示,通过将生化相互作用转化为可量化的ECL信号来测量目标分子的浓度。它结合了电化学方法和化学发光方法的优点,与其他光学分析法相比,具有高灵敏度、高选择性、低背景信号、宽的动态检测范围、设备简单等诸多独特的优势。在ECL生物传感器中,比率型ECL生物传
学位
自旋交叉(SCO)现象广泛存在于3d~4-3d~7过渡金属配合物,是一个很有潜力的研究领域,应用范围包括超高密度存储器件、传感器、分子电子学和自旋电子学等。但这些应用要求配合物表现出接近室温、磁行为突变且存在较宽磁滞的自旋交叉行为,而大部分已报导MnⅢ配合物都处于高自旋态(HS)。本论文旨在通过改变配体、阴离子等来调节MnⅢ配合物的结构和性质,以获得目标产物,为SCO体系的发展做出了重要贡献,研究
学位
当前,有机-无机杂化钙钛矿太阳能电池的实验室光电转换效率(PCE)已经达到了25.7%,但是铅(Pb)的毒性制约了Pb基钙钛矿的商业化发展,因此发展无铅钙钛矿太阳能电池显得十分重要。在Pb元素的众多替代元素中,锡(Sn)元素与Pb元素大小和性质相近,并且制备出来的Sn基钙钛矿和Pb基钙钛矿具有相似的光学及电学性质。除此之外,Sn基钙钛矿的光学带隙更小,电子传输能力更强,这也就意味着Sn基钙钛矿太阳
学位
随着工业制造和计算机辅助技术的不断发展、工业产品造型复杂度不断提高,传统的二维图像测量系统提取的信息已经不能够满足工业生产、制造和检测需求。同时,整个工业制造系统也朝着智能化、自动化的方向不断进步,这也对测量技术提出了更高要求。线结构光三维测量技术是一种非接触式的高效、灵活、精度稳定的测量手段,被广泛地应用于工业生产中零部件表面轮廓的测量。本文以线结构光三维测量技术为基础,根据需求分析,设计了符合
学位
人体行为识别在人工智能领域有着广泛的应用,并逐渐应用于日常生活中。本文使用激光雷达作为行为识别的硬件设备,采集人体行为的点云图像。本文将人体行为分为姿态和动作两个大的类别,分别采集数据进行行为识别。虽然卷积神经网络存在训练时间久、硬件开销大等缺点,但其性能优越,广泛应用于语音识别、图像识别、目标检测等各个领域。本文通过对国内外关于行为识别技术的分析和研究,使用卷积神经网络,实现基于激光雷达的人体行
学位
行人重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。近年来,深度学习技术的突破推动行人重识别快速发展,使其在公安刑侦、智能监控和安全防范等领域得到广泛应用。但是,由于实际应用场合下的光照变化、物体遮挡和背景变换等复杂环境使得行人重识别研究依旧面临各种挑战。因此,基于深度学习的行人重识别成为一项重要的研究课题。本文立足于利用深度学习技术提取分集性行人特征并融合以提高行人重识别
学位
随着中国制造2025的提出,视觉测量由于具有非接触、精度高、自动化等优点,成为智能制造领域中的关键技术之一。线激光三维测量是视觉测量技术中的一种,由于其精度、实时性均较好,广泛应用于智能制造、逆向工程与无人驾驶等领域中。测量系统需要利用图像处理技术将图像平面映射到三维空间中,而获取两者之间的映射关系称为标定。因此,标定精度将直接影响着系统测量精度,决定了系统的使用价值。论文主要研究基于线激光三维测
学位