语声转换系统的关键技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:newbitcom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代语音通信中,说话人的个性特征信息越来越得到了人们的重视,在通信中发挥着重要的作用,比如人们仅仅通过声音就可以清楚地辨别出对方,可以说声音是一个人的“语音名片”。语声转换是一种以说话人个性特征为主要研究对象的新兴的语音技术,它的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而转换后的语音听起来就像是目标说话人的声音一样,而其中的语义信息保持不变。随着语音产品在现代社会中的日益推广和普及,语声转换技术也将有着越来越广泛的应用,它的研究与发展也日益受到国内外学者的广泛关注。一个有效的语声转换系统不仅要具有良好的转换性能,同时也必须要有较高的语音质量。影响语音说话人个性特征的因素非常复杂,但反映声道特性的谱包络是其中最为重要的影响因素。在语声转换系统中。谱包络特征参数的转换过程是系统的核心模块。本文以语声转换中的谱包络特征参数的转换为主要研究目标,围绕这一目标,做了如下几方面的工作和贡献。 论文首先通过语声转换系统的重大的应用价值和重要的应用实例来阐述本文研究的出发点,接着简要介绍了当前语声转换的一些主要算法,并对各种算法进行了分析和比较。为了能够对语声转换技术有一个较为深入的理解,还介绍了语声转换系统的基本原理以及一些相关的语音信号处理背景知识。 提出了一种基于典型相关分析(CCA)的谱包络转换算法。CCA是一种统计分析方法,它能够很好地描述两个多维向量空间的线性相关信息。在该算法中,首先利用动态时间规整(DTW)方法对由源说话人特征参数和目标说话人特征参数进行对齐,形成联合特征参数空间,接着使用高斯混合模型(GMM)对该空间进行建模。在GMM的每个子空间里,采用CCA来估计源说话人特征参数与目标说话人特征参数之间的映射关系,从而得到每个子空间内的转换函数,最后根据源说话人特征参数在各子空间中的后验概率对各个转换函数进行加权求和,得到整个空间的特征参数转换函数。实验结果表示,该算法的转换效果要好于基于最小均方误差估计(MMSE)的转换算法。 CCA转换算法中的转换函数式是加权求均值的形式,这种对频谱进行加权求平均的操作会使得语音的共振峰特性弱化,谱包络形状过于平滑。另外,在进行转换时,是对每帧语音进行处理,没有考虑到帧间的相关信息。这些都会降低转换后语音的质量,为了减少这些影响,本文采用维特比算法对CCA转换系统进行改进。在改进的算法中,用GMM对目标说话人特征参数进行分类,继而得到一个特征参数的转移概率矩阵,该转移概率矩阵用于表示语音帧间的相关信息。采用由转移概率和源说话人特征参数的后验概率所构成的函数作为优化目标,用维特比算法搜索最佳路径时,从而在整体上为待转换语句的每帧语音寻找最优的子空间转换函数,这样每帧语音就是单一形式的转换函数。 当前的语声转换算法基本上都是建立在对称语音库的情况下,它要求源说话人和目标说话人录制语句内容相同的语音。但在有些应用场合,并没有这样的语音库,为了解决这个问题,提出了一种基于混合线性变换(Ms-LT)的转换算法。Ms-LT算法沿用了上述线性递归变换形式的转换函数式,在源说话人特征参数的每个GMM子空间里,用一组线性变换函数对源特征参数进行转换,然后再在整个GMM空间中进行加权求和,就形成了源特征参数到目标特征参数的转换函数。转换函数中的未知参量在最大似然估计准则下,采用期望最大(EM)算法进行求解。最后,利用线性调频z变换来增强语音频谱的共振峰特性,以此来降低加权求和对频谱的平滑效果。客观评测和主观听力测试结果都表明,Ms-LT算法也能取得与传统算法MMSE相差不多的转换效果。
其他文献
近几年,随着网络应用的普及,人类通过网络获得的信息越来越丰富,同时对网络的依赖程度也逐步增加。多媒体信息具有直观和信息量大等特点,受到人们的广泛欢迎,这使得网络上的
近年来,频率编码雷达得到了迅速的发展和广泛的应用。论文围绕频率编码雷达目标探测展开,基于Costas频率编码信号和Pushing频率编码信号,提出一种联合目标探测方案,并通过计
低速无线个域网(LR-WPAN,LOW Rate-Wireless Personal Area Network)是在低速率、低功耗、低成本的设备之间建立无线通信、实现各种信息交互的一种区域性联网技术,在智能家居
计算机立体视觉经过几十年的发展,目前已经成为计算机科学的重要研究领域之一。双目立体视觉作为计算机视觉中的一个重要分支,一直是计算机视觉研究的重点和热点。双目立体视觉
远程控制系统指能够在本地计算机上通过远程控制软件发送指令给远程的计算机,从而操纵远程计算机使之能够完成一系列工作的系统。本文在一般的远程控制系统的原理基础上,设计和
说话人识别以其独特的方便性、经济性和准确性的特点,在生物特征识别领域具有广阔的应用前景。但由于现有的说话人识别算法面临训练量大、实时性差以及受信道干扰严重等问题,
随着计算机技术的发展及网络技术的发展,企业、学校等纷纷架设自己的内部局域网络以实现无纸化办公、信息化教育等目的。在各种有线、无线局域网中,上下级服务器、客户端之间
移动Ad Hoc网络是随着无线通信技术的快速发展而出现的一种新型网络。它是一种自治的无线多跳网络,没有固定的基础设施,所有节点都可以任意移动并且都能以任意方式动态地保持
自主式移动机器人具有高度自规划、自组织和自适应能力,适合于在复杂的非结构化环境中工作。其目标是在没有人的干预、无需对环境做任何规定和改变的条件下有目的地移动和完
如今,多媒体通信已经成为社会生活中的一个重要部分,人们对视频质量的要求也越来越高。由于多媒体数据尤其是视频数据量的巨大,为了满足传输带宽需求,视频信号通常需要高度压