基于GAN的个性化声纹特征语音合成技术研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:cooltcp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术的主要任务是将文本信息转变成语音信息。近年来,随着深度学习与神经网络的飞速发展,语音合成技术逐渐成熟并广泛应用于智能音响、语音导航、信息播报、视频配音、音乐生成等领域。如今,在许多实际的应用场景中,合成的语音不仅需要表达出正确的文字信息,也需要满足用户对个性化声纹特征的需求。然而,现有语音合成模型主要关注合成速度以及音频质量,而对于个性化声纹拟合能力不足。为了解决现有模型生成个性化语音能力较差的问题,本文研究基于深度学习的个性化声纹特征语音合成技术,提出了一种基于生成式对抗网络的语音合成模型。从声纹相似度评分、语音质量评分、语音合成速度等方面对所提出的模型进行了评估。本文的主要研究内容如下:(1)针对现有语音合成模型对于个性化声纹拟合能力不足的问题,基于生成式对抗网络和声纹特征提取技术,提出了具有个性化声纹特征的语音合成模型。通过与其他模型进行对比和评估,最终实验结果表明该模型能有效提升个性化声纹的拟合能力。(2)针对所设计模型语音合成速度慢以及生成语音的音频质量略差的问题,设计了一种对模型性能优化的方案。该方案首先提升生成网络的感知能力并优化损失函数中损失项的权重分配,以解决合成速度慢的问题;其次采用多域信号处理方法重新设计判别网络,以解决语音质量略差的问题。(3)基于多个真实数据集对优化后的模型进行了实验。通过与其他方法在声纹相似度评分、语音质量评分、语音合成速度三个指标上进行评估比较,验证了该模型能有效解决现有模型对于个性化声纹拟合能力不足的问题,并能够快速完成个性化声纹特征语音的合成,同时保证了合成语音具有较高的语音质量评分。
其他文献
边缘计算在靠近用户的一侧提供计算资源,避免了用户到数据中心的数据传输,可以有效减轻数据中心功耗和网络传输带宽的压力,提高服务的响应速度。随着5G和物联网技术的发展,很多延迟敏感性较高的应用,如自动驾驶和无人驾驶车辆等被部署到边缘网络。然而,单一的边缘服务器覆盖范围有限,且用户具有移动性,例如当用户从某个服务器的覆盖范围移动到另一个服务器的覆盖范围时,可能导致服务质量下降甚至服务中断。为了保证服务的
学位
当下,广大求职者的就业与否往往是一个事关国家或企业人才战略发展的关键问题。随着Covid-19疫情的大肆流行,世界经济已经显现出加速衰退的趋势,这无疑给各国的就业市场造成了空前巨大的压力。因此,就业问题一直是学术界的热门话题之一。然而,国内外在相关领域的许多研究都存在着诸多缺陷,这些不足主要体现在三个方面:其一,大部分研究方法仍然局限于社会学的传统方法,并未充分应用计算机技术;其二,大量研究所依据
学位
计算机视觉旨在识别和理解图像或视频中的内容。其具有定位、分类、检测和分割四大基本任务。其中目标检测的目标包括两个子任务:分类和边界框回归。然而在诸多研究者涌入目标检测领域,使得大量且高质量的深度学习框架被提出并开源,以提高通用目标检测的性能。这为目标检测提供了新的解决方案,当把深度学习的方法引用到目标检测后,可通过神经网络学习特征表达能力更强的特征信息极大地提高了目标检测算法的检测性能。当目标检测
学位
软件模块聚类通过将软件系统的源代码划分为小而有意义的部分,使得理解遗留程序成为可能。有效的软件模块聚类算法能够提高软件内部质量,对软件的维护和演化具有重要意义。本文针对软件质量评估的片面性问题,提出了基于软件模块全局稳定性和执行路径复杂度的新指标作为目标函数。此外,还设计了两种基于差分进化的多目标算法来解决软件模块聚类问题。最后,通过大量实验测试了新目标函数和两种算法的效果和性能。下面是本文的主要
学位
众所周知,深度神经网络(Deep Neural Network,DNN)已经在计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)等领域取得了巨大的成功,越来越多的神经网络设计研究发现了一个现象:更复杂的网络拥有更好的准确性。复杂模型的结构往往都具有上百个网络层以及数千万个参数,因此,复杂网络的高精度是以增加计算成本和时
学位
软件生态系统在开源软件协作开发中发挥着重要作用。但随着软件生态系统的发展,由软件和软件涉众组成的内部结构变得越来越复杂。这种复杂性对人们深入观察和理解软件生态系统提出了挑战。然而深入观察和理解软件生态系统恰恰是更好地管理和建设软件生态系统的重要前提。本文选择目前最流行也是规模最大的Maven生态系统作为研究对象,从关系密切的软件和软件涉众的角度出发,观察和理解软件生态系统。首先,本文基于软件工件依
学位
在当前经济发展形势下,审计的地位日益提高。对于企业而言,企业在上市前需要通过IPO审计,成功上市后每个会计年度都需要对财务报表进行审计并公布审计报告为利益相关者提供信息。为了提高审计报告中的有效信息量以及为利益相关者带来更多公司信息,减少信息不对称而带来的决策、投资等风险,关键审计事项的相关审计准则在国内外先后颁布。本文主要围绕关键审计事项披露对审计质量的影响展开研究,引入审计收费和企业类型展开调
学位
随着人工智能的发展,深度神经网络在计算机视觉领域的各种任务都取得了突出的表现。各项基于计算机视觉任务的应用快速落地,如人脸识别、人脸支付、自动驾驶等等。然而,最近的研究发现,在干净的图像上添加一些人眼不可见的对抗扰动,可以使神经网络产生错误的结果。随着研究的深入,还发现这种脆弱性普遍存在于各种神经网络中。这引发了研究者们极大的兴趣,也引起了大家对于人工智能领域安全性的担忧。本文首先提出针对图像分类
学位
长期以来,我国资本市场一直是仅允许做多的单向市场,2010年3月31日我国首次放宽做空管制,允许进行融资融券交易。截止2021年A股融资融券名单已经历过6次扩容,相关标的由原来的90家升至1600家。但融资融券交易在我国资本市场中的作用却存在争议。本文认为在允许融资融券交易的情况下,杠杆效应让市场上投资者的情绪表达成倍放大,无论是在多方的抱团推升资产价格,产生泡沫和“搏傻”行为,还是空方挖掘潜在利
学位
飞机刹车半物理仿真平台实现了实物与仿真系统的结合,为飞机刹车相关研究提供了良好的条件。以半物理仿真平台为背景,设计了一种以AD5292为核心的指令传感器模拟装置,可以准确快速地产生指令传感器信号。与实物指令传感器相比,它可以集成于板上、轻巧、便于携带,也可以大大降低仿真平台的开发成本。
期刊