共振峰语音合成算法研究和实现

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:sdwtb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前流行的语音合成系统是采用大语料的波形拼接技术获得高质量的合成语音,基于这种技术的各种拼接算法和韵律模型及语音库的建立等方面的研究工作受到广泛关注,很多优秀的合成系统成功用于商用场合。然而这种合成方法需要大规模的语音库限制了其在PDA和手机等小型化机器上的运用。而传统的基于参数的共振峰语音合成模型所需的参数库小,可以在频域上直接对参数修改,同时对语音参数控制的灵活性使得共振峰合成可以建立在一个相对较小的参数库基础上就能合成出不同说话人风格的语音来等优点。所以本文开展了面向共振峰合成的研究工作。 本文工作包括以下几个方面: ①作者主要研究比较了各种声源参数模型的特点,在保证提取算法的可靠性和准确性的基础上,选择KLGLOTT88模型[1]作为声源参数模型,基于最小化自然语音声源和语音声源模型之间的误差来求得模型参数,将问题转化为带约束条件的凸函数优化问题。完成了一个对自然语音自动提取声源参数的算法。实验验证实该算法能有效的提取模型参数,为下一步共振峰合成提供了可靠的声源激励。 ②针对KLATT合成器的控制参数过多使得在合成一个自然语音时,合理地设置参数变得很困难的问题,作者设计了一个辅助产生和控制模型参数的工具。 ③详细分析共振峰合成的优缺点,特别提到共振峰合成中对轻音的合成的困难,提出了混合波形拼接和共振峰合成的方案来合成一段话。听辨实验证实了该合成方法的良好效果。 总之,本文针对参数语音合成过程中从对声源参数的提取算法实现作了有效的尝试和改进。
其他文献
论文研究了基于贝尔模板的单CCD原始数据的图像重构及其压缩算法。这些算法在当今的数字摄像(相机)产品中属于核心技术。图像重构算法可分为两个统计独立的阶段,首先是插值算
目前,船舶的减摇系统主要是减摇鳍和减摇水舱。经过多年的发展,减摇鳍和减摇水舱的技术日趋完善,但由于减摇鳍和减摇水舱都存在各自的缺点,并且各种船舶对减摇的要求越来越高
转炉炼钢是世界上最主要的炼钢方法之一,目前全球共有约600台氧气转炉正在运行,年产量约45000万吨,占总产量的60%左右。作为钢铁工业的重要组成部分,其主要任务是冶炼出成分
在研究了国内外基于视觉的驾驶员疲劳检测方法以及人脸和人脸特征检测方法的基础上,主要做了以下一些工作: 确定了研究方案和系统框架,采用了由粗到细的方法定位驾驶员的脸部
本文就大型运载火箭的低温推进剂加注液位检测和数据处理系统进行研究.本文首先从课题的研究背景出发,综述了大型运载火箭推进剂的发展过程,介绍了加注液位检测技术的研究现
本文对工业以太网技术和TCP/IP协议进行了详细的研究和总结,成功开发出了一个嵌入式工业以太网平台。首先考察了国内外工业以太网技术和嵌入式TCP/IP技术的发展情况和研究
目前,我国的中药材质量不稳定,市场较为混乱,缺乏有效的中药质量控制方法是其中的原因之一。中药化学成分的多样性与复杂性是中药质量评价的难点,要阐明中药中的有效成分已经很困
  随着VPN技术的发展,越来越多的科研机构致力于相关协议的开发和软件的研发工作。IPSec是IETF提出的IP安全标准,它通过使用高强度的密码认证和加密算法来保护IP通信的完整性
运动目标的视觉行为分析是计算机视觉领域的一个重要方向,而运动模式分析是运动目标的视觉行为分析的一个行之有效的重要方法。现有的运动模式分析的方法都是依赖于已知的场景
专家系统是人工智能应用最多的一个分支,开展专家系统的科研及应用工作最困难的在于专家知识的发现及获取。知识具有两重性即公有知识和私有知识。相对于私有知识,公有知识比较