基于神经网络的语音转换

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:coudoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于神经网络的语音转换利用其特殊的非线性方程转换式将源说话人的特征映射为目标说话人的特征,这种方法被证实比基于高斯混合模型语音转换方法更加有效。然而,基于神经网络的语音转换还有诸多不足。例如目前神经网络的训练是基于最小化帧误差准则的,因此神经网络相应的权值是根据整个的源说话人和目标说话人的训练数据来进行调整的。在本文中,我们受启发于基于隐马尔科夫模型(HMM)的语音合成体系中的基于整句优化最小化生成误差的训练准则,将语音转换中神经网络训练的基于帧误差最小化的训练准则改为基于序列误差最小化的训练准则。我们利用基于梯度下降的反向传播算法来最小化一句训练数据上源说话人和目标说话人之间的转换误差。实验结果表明通过先用最小化帧误差准则训练,再用最小化序列误差训练的神经网络比起只用最小化帧误差训练的神经网络转换出来的声音在主观测试中更胜一筹。在目前的语音转换中,韵律转换尤其是基频转换是一个很具有挑战性的研究课题,这主要是因为基频的不连续性。通常基频转换都是通过改变源说话人基频分布的均值和方差到目标说话人分布上去。这种方法抹除了说话人韵律的细节信息只保留的基频的整体轮廓。在本文中,我们将基频和谱特征一同在神经网络中进行转换。从实验结果上来看比起高斯归一化的方式,通过神经网络的转换可以大幅减少转换语音和目标语音之间的清音/浊音误差及基频均方根误差。将基频进行小波分解后可以进一步提高转换结果。
其他文献
学习对象(Learning Object,LO)是远程教学的一个研究热点,自H.Wayne Hodgins于1994年提出学习对象之后,学习对象取得了长足的发展。2000年IEEE P 1484学习对象元数据工作小组
互联网的飞速发展带来了网络通信量的剧增,这不仅要求网络设施能提供足够的带宽,而且要求网络服务提供者或使用者能清晰地了解网络带宽使用情况,以保证网络应用和管理的科学
随着企业的市场竞争的日趋激烈和业务环境的不断变化,对业务流程管理的要求也变得越来越高,在多流程多实例并行执行的工作流管理系统中,存在各种各样的约束条件和资源竞争,一个多
目前国内外特别是国内,对于工作流技术的研究重点主要集中在对工作流管理系统的体系结构、过程模型,定义工具、系统互联等方面,而对工作流客户端的讨论所见不多。另一方面,当前仅
随着计算机技术和通信技术的迅猛发展,敏感信息通过计算机网络进行交换,特别是电子商务的迅速发展,更多的信息需要严格保密,如,银行账号、个人档案等。密码学的出现,满足了信息的秘
椭圆曲线密码体制是目前公钥体制中每比特密钥安全强度最高的一种密码体制。在相同安全强度条件下,椭圆曲线密码体制具有较短的密钥长度,较少的计算量、存储量和较小的带宽等
尽管工业和学术界在一直努力消除网络拥塞,但它依旧存在并增长。闭环拥赛控制机制已经成为当今网络的标准。在这种机制中,当拥塞发生和快要发生时,网络会向发送源提交一个负
约简和核是粗糙集理论中的重要研究课题,受到广泛关注。现有的约简算法存在着以下一些问题:无法保证结果的完备性;不能保证得到最小约简;空间开销大;时间复杂度高等。 概
支持向量机(SVM)在分类算法原理中基于结构风险最小化的优越性使得其应用领域越来越广泛。其顺次最小优化算法(SMO)比传统的块算法和固定工作样本集的迭代优化算法具有更好的
进入21世纪,科技发展以人为本,电子信息技术的发展渗透到人们生活的各个领域,为人们提供了安全、舒适、便捷的生活环境。网络家电是新兴的家电产品,除了具有传统的家电功能以