倒谱本征空间结构化高斯混合模型及语音转换研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:buzi899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音转换是语音信号处理领域的一个重要分支,其目的是保持说话人语音的语义信息不变,只改变说话人的个性特征,源说话人语音经过转换后其个性特征更接近目标说话人的个性特征。传统的语音转换方法大多采用平行语料联合训练源-目标说话人的语音模型并由此推导出相应的语音转换函数,但在实际应用中难以获得完全平行的语料,而且训练联合说话人语音模型的计算量大,在多说话人之间进行语音转换时系统繁杂。本课题针对非平行语料非联合训练条件下的语音转换,提出一种基于倒谱本征空间结构化高斯混合模型的方法。首先提取说话人语音的倒谱特征参数,然后根据其散布矩阵计算本征向量构造倒谱本征空间并训练结构化高斯混合模型(SGMM-ES,Structured Gaussian Mixture Model in Eigen Space)。源和目标说话人各自独立训练的SGMM-ES根据全局声学结构(AUS, Acoustical Universal Structure)原理进行匹配对准,最终得到基于倒谱本征空间的短时谱转换函数。主客观实验结果以及表明SGMM-ES语音转换系统的转换性能非常接近于传统平行语料的方法。这一结果说明采用倒谱本征空间结构化高斯混合模型进行非平行语料条件下的语音转换是有效的。本课题的研究内容主要包括以下几个方面:(1)、研究了语音产生的基本原理以及数学模型,对语音的个性特征参数进行了详细的分析,并基于STRAIGHT构成语音分析-合成平台。(2)、搭建了平行语料联合训练条件下基于GMM模型的语音转换平台作为基准系统,并具体分析了传统语音转换方法存在的问题。(3)、深入研究了语音的全局声学结构原理,提出了说话人倒谱本征空间结构化高斯混合模型(SGMM-ES)及其具体实现算法。(4)、在非平行语料非联合训练的条件下,实现了基于倒谱本征空间结构化高斯混合模型的语音转换系统。(5)、对GMM、SGMM、SGMM-ES三种方法得到的转换语音进行了主客观实验评测,并作了详细的分析,以验证本论文提出方法的有效性。
其他文献
随着人们对数据通信服务的需求的不断上升,以及移动多媒体业务越来越呈现多样化,传统的蜂窝系统已不能满足需要,异构网(Heterogeneous Network,HetNet)作为未来无线通信领域
双目立体视觉作为计算机视觉领域中的一个重要组成部分,在工业、军事、航空等领域得到了越来越广泛的应用。该领域中的双目视觉摄像机的标定与立体匹配是其关键技术,一直是研究
数字水印技术是一种将特制的、不可见的标记,利用内嵌的方法隐藏在数字文本、图像、视频等数字内容中的技术,它被用来确定版权的所有者、认证数字内容的完整性等。近些年来,随着
随着视频会议,流媒体服务等技术的应用和互联网的普及产生的信息爆炸式增长,对物理层的光传输系统也提出了更高的要求。在大量光纤传输路径中,如沙漠通信,岛间通信等,光缆线路经过
在电力系统运行过程中,污闪事故造成的电能损失直接或间接地损害了国民经济健康快速的发展,绝缘子污秽的检测方法及相关技术研究在绝缘子污秽等级的判断、指导电力系统安全检修、防止发生污闪事故等方面具有重要意义。本论文主要研究了利用双通道狄克型辐射计对绝缘子污秽辐射特性的检测方法。绝缘子污秽在含有不同的盐分和灰分时,其在微波波段的辐射特性不同。通过甄别绝缘子污秽物辐射能量的差异性,可以确定绝缘子的污秽等级状
目前移动通信已迈入4G领域即LTE (Long Term Evolution)标准领域。对于传统通信领域来说,LTE的提出,在数据传输速率、系统容量、抗干扰能力、频谱利用率等方面都有了大幅提升。
近年来,以多协议、多载波、多用户、多业务为特征的蜂窝网络快速增长,并且随着业务需求的不断多样化,提高蜂窝网络的能效已经成为一个关键问题。对于蜂窝网络,基站消耗了整个
随着无线通信技术的发展,认知无线电作为一种新兴的可以解决频谱资源紧张、提高频谱利用率的智能频谱共享技术受到越来越多的关注。为了不对付费的授权用户产生影响,同时又能
当前,基于微动特征的目标识别技术成为了雷达目标识别领域的一个新课题,并被认为是雷达目标识别技术中最有发展潜力的技术之一。本文以空间多目标为研究对象,在建立窄带雷达
随着社会的发展,汽车逐渐普及,随之也带来了交通拥挤加剧,事故频发等问题。无人驾驶车辆的研究可以为驾驶员提供辅助信息,从而提高行车的安全性和交通运行效率。对交通标志的检测