论文部分内容阅读
在现代语音通信中,说话人的个性特征信息越来越得到了人们的重视,在通信中发挥着重要的作用,比如人们仅仅通过声音就可以清楚地辨别出对方,可以说声音是一个人的“语音名片”。语声转换是一种以说话人个性特征为主要研究对象的新兴的语音技术,它的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而转换后的语音听起来就像是目标说话人的声音一样,而其中的语义信息保持不变。随着语音产品在现代社会中的日益推广和普及,语声转换技术也将有着越来越广泛的应用,它的研究与发展也日益受到国内外学者的广泛关注。一个有效的语声转换系统不仅要具有良好的转换性能,同时也必须要有较高的语音质量。影响语音说话人个性特征的因素非常复杂,但反映声道特性的谱包络是其中最为重要的影响因素。在语声转换系统中。谱包络特征参数的转换过程是系统的核心模块。本文以语声转换中的谱包络特征参数的转换为主要研究目标,围绕这一目标,做了如下几方面的工作和贡献。
论文首先通过语声转换系统的重大的应用价值和重要的应用实例来阐述本文研究的出发点,接着简要介绍了当前语声转换的一些主要算法,并对各种算法进行了分析和比较。为了能够对语声转换技术有一个较为深入的理解,还介绍了语声转换系统的基本原理以及一些相关的语音信号处理背景知识。
提出了一种基于典型相关分析(CCA)的谱包络转换算法。CCA是一种统计分析方法,它能够很好地描述两个多维向量空间的线性相关信息。在该算法中,首先利用动态时间规整(DTW)方法对由源说话人特征参数和目标说话人特征参数进行对齐,形成联合特征参数空间,接着使用高斯混合模型(GMM)对该空间进行建模。在GMM的每个子空间里,采用CCA来估计源说话人特征参数与目标说话人特征参数之间的映射关系,从而得到每个子空间内的转换函数,最后根据源说话人特征参数在各子空间中的后验概率对各个转换函数进行加权求和,得到整个空间的特征参数转换函数。实验结果表示,该算法的转换效果要好于基于最小均方误差估计(MMSE)的转换算法。
CCA转换算法中的转换函数式是加权求均值的形式,这种对频谱进行加权求平均的操作会使得语音的共振峰特性弱化,谱包络形状过于平滑。另外,在进行转换时,是对每帧语音进行处理,没有考虑到帧间的相关信息。这些都会降低转换后语音的质量,为了减少这些影响,本文采用维特比算法对CCA转换系统进行改进。在改进的算法中,用GMM对目标说话人特征参数进行分类,继而得到一个特征参数的转移概率矩阵,该转移概率矩阵用于表示语音帧间的相关信息。采用由转移概率和源说话人特征参数的后验概率所构成的函数作为优化目标,用维特比算法搜索最佳路径时,从而在整体上为待转换语句的每帧语音寻找最优的子空间转换函数,这样每帧语音就是单一形式的转换函数。
当前的语声转换算法基本上都是建立在对称语音库的情况下,它要求源说话人和目标说话人录制语句内容相同的语音。但在有些应用场合,并没有这样的语音库,为了解决这个问题,提出了一种基于混合线性变换(Ms-LT)的转换算法。Ms-LT算法沿用了上述线性递归变换形式的转换函数式,在源说话人特征参数的每个GMM子空间里,用一组线性变换函数对源特征参数进行转换,然后再在整个GMM空间中进行加权求和,就形成了源特征参数到目标特征参数的转换函数。转换函数中的未知参量在最大似然估计准则下,采用期望最大(EM)算法进行求解。最后,利用线性调频z变换来增强语音频谱的共振峰特性,以此来降低加权求和对频谱的平滑效果。客观评测和主观听力测试结果都表明,Ms-LT算法也能取得与传统算法MMSE相差不多的转换效果。