基于音素的说话人语音转换技术

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：gzqeedaa

【摘要】

：

说话人语音转换技术是语音信号处理领域中的前沿分支。它通过对一个说话人(源说话人)的语音信号进行修改，在保留其所表达的语义信息的前提下，使修改后的语音信号听起来像另外一

【作者】

：

夏菁

【机构】

：

华南理工大学

【出处】

：

华南理工大学

【发表日期】

：

2006年期

【关键词】

：

说话人语音转换说话人语音转换线性预测分析线性预测分析高斯混合模型高斯混合模型隐马可夫模型隐马可夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

说话人语音转换技术是语音信号处理领域中的前沿分支。它通过对一个说话人(源说话人)的语音信号进行修改，在保留其所表达的语义信息的前提下，使修改后的语音信号听起来像另外一个说话人(目的说话人)所说的。说话人语音转换技术对语音分析、语音合成、语音识别及说话人识别等领域都有重大的促进意义。线性预测是语音处理中广泛应用的分析合成模型。它具有参数计算容易，合成语音质量高等特点。对于说话人语音转换技术而言，其另一显著优势在于它是基于语音产生的嗓音源一声道模型建立的，直接体现了说话人的特征。本文从线性预测所体现的说话人特征着手，通过基音同步的方法对语音进行分析合成，研究了基于该模型的说话人语音转换技术。在基于音素的说话人语音转换技术中，训练及测试语句都需要进行音素的切分。本文通过提取语音的Mel倒谱系数，采用动态时间归整算法，实现了单音素级的语音切分。说话人语音转换的关键技术之一是从语音中提取可分析合成的说话人特征。本文将语音中所体现的说话人的生理特征进行转换，而保留源说话人语音的语速、韵律和语义信息。在线性预测分析中，时变的全极点滤波器体现了说话人的声道响应，通过逆滤波得到的嗓音源激励可用LF微分声门波信号表示。本文用线性预测参数表征说话人的声道特征，用LF模型参数表征说话人的声门特征，解决了大多数说话人语音转换方法中仅用基音频率表征浊音音素的说话人嗓音源特征的瓶颈问题。本文的核心在于转换模型的设计，比较了两种进行参数转换的算法。算法一基于高斯混合模型，通过转换函数，将源说话人的特征参数修改为目的说话人的特征参数。算法二基于隐马可夫模型，通过状态匹配，将源说话人的特征参数映射为目的说话人的特征参数。高斯混合模型具有快速准确拟合参数的特点，隐马可夫模型广泛应用于表示短时平稳过程。本文对这两种算法进行横向比较，指出不存在绝对优异的算法，要在算法性能和实现复杂度两者间折衷考虑。本文的另一大贡献在于给出了测试说话人语音转换技术的客观与主观方法。本文通过计算信噪比衡量分析合成的性能，通过比较类内与类间距离衡量统计模型的聚类特性。对于转换后的语音，本文设计了两种听觉测试实验，分别评价语音质量及相似性。

其他文献

基于图像结构相似度的视频编码方法研究

视频通信以其直观生动等特点在多媒体通信中占有非常重要的地位，而随着多媒体技术的发展，视频压缩编码技术日益成为计算机通信领域中倍受关注的问题。压缩效率是在码率、图像质

学位

结构相似度结构相似度H.264H.264率失真优化率失真优化帧内预测帧内预测帧间预测帧间预测

如何让小学生爱上文言文

本文通过对荣华二采区10

期刊

基于网页语料构建面向语音识别的动态更新式语言模型

在语音识别系统中，语言模型是不可或缺的，以先验概率的形式发挥重要作用，在大词汇量非特定人的连续语音识别中，又以基于统计的语言模型应用最为广泛。N元文法语言模型作为统计语

学位

语言模型语料库Web网页语料信息熵语音识别系统

基于小波的序列图像超分辨率重构研究

在过去几十年里，人们一直在不断地寻找获得高分辨率数字图像的途径。今天，由于集成电路技术的发展，使得数字图像的分辨率越来越高。但是在某些情况下，由于成本、技术或者其它原因

学位

超分辨率图像重构超分辨率图像重构高分辨图像重构高分辨图像重构视频视频图像处理图像处理分辨率分辨率POCS算法POCS算法小波小波多进制小波多进制

协同概念构图系统中的意义协商机制研究

概念构图是一种有效地用来组织、表征和交流知识的教学方法。多人参与协商创作的协同概念构图过程则体现了一个学习小组协作理解问题的过程，它是一种协作学习的有效支撑模式。

学位

概念图协同编著协同概念构图认知冲突意义协商建构主义协同控制CSCA系统

面向NGN的业务生成和仿真平台的研究及在业务冲突检测中的应用

NGN(下一代网络)是电信网络演变的必然趋势，随着电信网络结构的改变，其业务生成方式和运行模式发生大幅改变，其业务种类、数量和个性化要求将快速增长。下一代网络的发展要

学位

下一代网络下一代网络ParlayAPIParlayAPI网络资源网关网络资源网关仿真仿真业务冲突业务冲突

基于面向对象着色Petri网的NGN业务特征冲突检测方法的研究

电信增值业务在下一代网络中将得到高速的发展，同时业务之间产生的业务特征冲突问题也变得复杂多样。业务特征冲突给电信运营商造成许多麻烦。在处理业务特征冲突的问题上，电信

学位

着色Petri网着色Petri网面向对象面向对象业务特征冲突业务特征冲突NGNNGN

忘记过去意味着什么

1在学校时,有一年暑假跟着两位老师去郑州段黄河边上写生,闲逛时有附近山上的村民拿出几个生锈的箭头,说这是当年刘邦和项羽打仗时遗留下来的,原来山下就是传说中的楚河汉界:

期刊

广武山八幅河边上画廊郑州段驻马店板桥广武去了项羽

基于DSP的低功耗长基线应答器研制

本论文针对“长基线定位系统”的需要，研制一套满足设计技术指标要求的硬件系统。该水声应答器要求能够接收测量船发来的询问信号和遥控指令，相应的执行应答、水声通信、深度测

学位

长基线定位系统水声应答器接收询问信号遥控指令水声通信低噪声低功耗高速信号处理

基于群体用户行为的移动网络合作缓存方法研究

近年来，将内容缓存到网络边缘侧逐步成为移动网络中一种减少系统传输代价和提升用户体验的有效方式。随着移动网络的不断发展，我们可以利用网络架构优势更进一步地提升移动网络

学位

移动网络缓存策略基站合作模型群体用户行为

基于音素的说话人语音转换技术

与本文相关的学术论文