说话人声音转换方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:soj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音转换按照目不同可分为两类:一类为非特定人声音转换,只要将原话者的声音变掉即可;另一类为源一目标说话人声音转换,是要将原话者的声音变成特定目标话者的声音。针对不同目的的声音转换,本文在语音线性预测分析及LPC合成器的基础上,着重研究了基于基频的非特定人声音转换以及源一目标说话人声音转换中的声道参数转换。 对说话人的非特定人声音转换,可以通过控制LPC合成器中的基频参数来实现。对基频的适当改变可以引起说话人声音模式的改变,但其改变也会引起原语音谱包络的变化,从而可能引起语义失真。本文通过主观听辨和客观谱失真相结合的办法,在基频平移或缩放两种改变方法下,由实验按经验获得适合大多数人的、既引起转换后语音的声音模式改变、同时语义不失真的基频改变范围,以此范围指导基于基频的非特定人声音转换。 源一目标说话人声道参数转换是实现源一目标说话人声音转换的关键。通常采取分类获取转换规则的策略,即同一类的参数共享一个规则。显然,分类数越多,转换规则越多,转换效果越好。为了在一定的分类数下能获取尽可能多的转换规则,本文采用基于径向基函数网络(RBFNN)的分类线性加权转换方法,以输入特征矢量对各个类别(隐层节点)的“贡献”作为各子类转换规则的权值,转换后的特征矢量为各子类输出的加权,可以获得远大于分类数的转换规则。针对通常采用FCM算法训练网络隐层节点中心欠准确、影响最终声道转换效果的问题,本文给出改进的差分进化FCM算法来获得更优化的隐层节点中心,并通过对比实验表明使用改进的算法训练中心,最终可在较大程度上提高源一目标话者声道参数转换性能。本文还对转换规则和训练集大小的关系展开相应的实验研究。
其他文献
时代高度学术关怀中国工笔画学会代会长、展览组委会主任冯大中:展览将站在时代高度和理论高度,以新的学术标准和创新的布展形式展示中国当代工笔画的最新学术探索成就。中国
学位
BST铁电薄膜因其具有良好的铁电、介电、压电等方面的特性,成为近年来研究的一个热点。其优良的性能可以使其应用在移相器、动态随机存储器等微波调谐器件当中。然而,应用在
超宽带技术以其独特的优势,在解决数据传输、频谱资源紧缺以及精确定位等方法发挥了重要的作用,从而吸引了人们广泛的关注和研究,得到了迅速的发展。尤其是多点通信和信号接
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
盲均衡技术是一种不借助于训练序列,仅利用接收序列本身的先验信息来均衡信道特性,使其输出序列尽量逼近发送序列的新兴自适应均衡技术。循环平稳理论是介于非平稳信号与平稳
本文通过对荣华二采区10
期刊
该实验以低温保存的兰州百合花粉为试验材料,首先摸索出了花粉原生质体的大量游离和纯化方法,原生质体产率达到30-50﹪左右,经纯化原生质体的纯度能够达到95﹪以上.经FDA检测证实
本文通过对荣华二采区10
期刊
视频图像的运动估计,是指根据相互关联的两帧或多帧图像估计出图像中各物体运动信息的技术,其中基于块匹配(Block Matching)的视频图像运动估计技术,方法简单、估计效果好、