基于音素的说话人语音转换技术

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gzqeedaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人语音转换技术是语音信号处理领域中的前沿分支。它通过对一个说话人(源说话人)的语音信号进行修改,在保留其所表达的语义信息的前提下,使修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人语音转换技术对语音分析、语音合成、语音识别及说话人识别等领域都有重大的促进意义。 线性预测是语音处理中广泛应用的分析合成模型。它具有参数计算容易,合成语音质量高等特点。对于说话人语音转换技术而言,其另一显著优势在于它是基于语音产生的嗓音源一声道模型建立的,直接体现了说话人的特征。本文从线性预测所体现的说话人特征着手,通过基音同步的方法对语音进行分析合成,研究了基于该模型的说话人语音转换技术。 在基于音素的说话人语音转换技术中,训练及测试语句都需要进行音素的切分。本文通过提取语音的Mel倒谱系数,采用动态时间归整算法,实现了单音素级的语音切分。 说话人语音转换的关键技术之一是从语音中提取可分析合成的说话人特征。本文将语音中所体现的说话人的生理特征进行转换,而保留源说话人语音的语速、韵律和语义信息。在线性预测分析中,时变的全极点滤波器体现了说话人的声道响应,通过逆滤波得到的嗓音源激励可用LF微分声门波信号表示。本文用线性预测参数表征说话人的声道特征,用LF模型参数表征说话人的声门特征,解决了大多数说话人语音转换方法中仅用基音频率表征浊音音素的说话人嗓音源特征的瓶颈问题。 本文的核心在于转换模型的设计,比较了两种进行参数转换的算法。算法一基于高斯混合模型,通过转换函数,将源说话人的特征参数修改为目的说话人的特征参数。算法二基于隐马可夫模型,通过状态匹配,将源说话人的特征参数映射为目的说话人的特征参数。高斯混合模型具有快速准确拟合参数的特点,隐马可夫模型广泛应用于表示短时平稳过程。本文对这两种算法进行横向比较,指出不存在绝对优异的算法,要在算法性能和实现复杂度两者间折衷考虑。 本文的另一大贡献在于给出了测试说话人语音转换技术的客观与主观方法。 本文通过计算信噪比衡量分析合成的性能,通过比较类内与类间距离衡量统计模型的聚类特性。对于转换后的语音,本文设计了两种听觉测试实验,分别评价语音质量及相似性。
其他文献
视频通信以其直观生动等特点在多媒体通信中占有非常重要的地位,而随着多媒体技术的发展,视频压缩编码技术日益成为计算机通信领域中倍受关注的问题。压缩效率是在码率、图像质
本文通过对荣华二采区10
期刊
在语音识别系统中,语言模型是不可或缺的,以先验概率的形式发挥重要作用,在大词汇量非特定人的连续语音识别中,又以基于统计的语言模型应用最为广泛。N元文法语言模型作为统计语
在过去几十年里,人们一直在不断地寻找获得高分辨率数字图像的途径。今天,由于集成电路技术的发展,使得数字图像的分辨率越来越高。但是在某些情况下,由于成本、技术或者其它原因
概念构图是一种有效地用来组织、表征和交流知识的教学方法。多人参与协商创作的协同概念构图过程则体现了一个学习小组协作理解问题的过程,它是一种协作学习的有效支撑模式。
NGN(下一代网络)是电信网络演变的必然趋势,随着电信网络结构的改变,其业务生成方式和运行模式发生大幅改变,其业务种类、数量和个性化要求将快速增长。 下一代网络的发展要
电信增值业务在下一代网络中将得到高速的发展,同时业务之间产生的业务特征冲突问题也变得复杂多样。业务特征冲突给电信运营商造成许多麻烦。在处理业务特征冲突的问题上,电信
1在学校时,有一年暑假跟着两位老师去郑州段黄河边上写生,闲逛时有附近山上的村民拿出几个生锈的箭头,说这是当年刘邦和项羽打仗时遗留下来的,原来山下就是传说中的楚河汉界:
本论文针对“长基线定位系统”的需要,研制一套满足设计技术指标要求的硬件系统。该水声应答器要求能够接收测量船发来的询问信号和遥控指令,相应的执行应答、水声通信、深度测
近年来,将内容缓存到网络边缘侧逐步成为移动网络中一种减少系统传输代价和提升用户体验的有效方式。随着移动网络的不断发展,我们可以利用网络架构优势更进一步地提升移动网络