源-目标说话人语音转换研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:chrisevenk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换技术是语音信号处理一个比较新的研究方向,也是近年来语音研究的热点。说话人的语音转换是指在不改变语音内容的情况下,使源说话人的声音转换为目标说话人的声音。本文研究实现源.目标说话人语音转换相关的具体有效的算法,并使用MATLAB进行了编程实验,结果良好。   对声道谱参数和韵律特征的转换是声音转换的关键技术之一。由于人耳对低频的声音信号比较敏感,而清音属于高频语音,对人的听觉贡献较小,所以本文主要对语音的浊音信号进行分析,于是清浊音判别对语音的后续处理极为重要。本文对传统的过零率和能量两参量判别方法进行了改进,使用零能比、零能积和自相关函数的能量的三参量组合判决方法进行语音的清/浊音判别。   在对声道谱参数进行转换时,本文使用混合高斯模型对声道谱参数建立连续概率模型,对训练数据进行了软分类。根据不同子类对频谱特征转换的贡献大小,赋予不同的加权系数,用加权线性转换方法,对频谱包络特征进行转换。在训练GMM模型前,由于源、目标特征参数向量的序列参数不同,本文使用了动态时间规整算法对特征参量序列进行对齐。本文将基于高斯混合模型加权线性转换与基于硬分类法的LMR转换,并比较了不同混合度下,距离测度的训练误差与测试误差。实验结果表明基于后验概率混合高斯模型的加权线性变换表现出一定的优越性。在对韵律特征进行转换时,本文将基音频率建立高斯模型,在源-目标说话人之间进行转换。   在转换后使用时域基音同步叠加法对转换语音的特征进行合成。使用ABX测试方法对转换语音进行测试,实验结果表明转换语音以80%的概率倾向于目标语音。
其他文献
目前,越来越多的企业都通过Internet建立起基于Web的企业信息管理系统,从而理顺工作流程,加强与客户的联系,增强企业的竞争力。本文以这类问题作为研究重点,具体实现了一个适
随着高校信息化的迅猛发展,数字化校园建设相继进入各高校的规划。数字化校园建设涵盖的面很广,基本包括了学校信息化建设的各方面,从网络基础设施,到教学资源,以及各个业务
图像分割作为图像分析与图像理解的前期步骤,是计算机视觉领域中最基本、也是最困难的问题之一,分割结果的好坏直接影响到后续工作的优劣。   医学图像分割的目的是把图像中
随着电子技术的发展,视频监控系统大致经历了模拟视频监控系统和数字化视频监控系统,我国监控系统建设在各方面都取得了长足的进步,为提高国家教育考试的管理效能,教育部考试
无线传感器网络是由大量随机部署在一定的地理区域内的传感器节点组成的无线自组织网络。网络节点间协作地感知、采集网络覆盖区域内物理对象的信息,为人们提供了与物理信息
航磁异常探测属于航空磁探测的分支,是一种基于航空平台进行磁测量的手段,在地球物理中研究地址构造,矿物勘探,磁场图绘制中有着广泛的应用。航磁异常探测首先需要进行航磁补
随着P2P、VOIP等新颖应用技术的不断涌现和网络应用类型复杂度的日益增长,网络流量的本质正在不可避免的被革新。通过有效的技术手段,管理和控制网络中的各种业务流量,为不同
学位
虚拟根系是在计算机上以可视化的方式模拟根系在三维空间中的形态结构变化规律及其生长发育过程,是虚拟作物研究中的重要组成部分,在农学、生态学、虚拟教学以及提高虚拟作物生长研究整体水平具有十分重要的现实意义和广泛的应用前景。本文以小麦根系为研究对象,以生长度日(GDD)为驱动因子,基于不同试验资料,初步构建了小麦根系三维形态模型。然后,结合模型输出的形态特征参数和拓扑结构,利用三维几何建模技术,构建了小
随着现代服务业、服务计算和云服务等新兴技术的迅猛发展,服务变得越来越多样化,顾客需求也变得越来越复杂。当中介组合多个原子服务形成组合服务提供给顾客时,该组合服务也