高自然度汉语语音合成韵律预测技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：wp61wp

【摘要】

：

随着多媒体通信技术的不断发展，作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有

【作者】

：

邵艳秋

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2006年期

【关键词】

：

汉语语音合成韵律预测波形拼接技术重音标注语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着多媒体通信技术的不断发展，作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。目前汉语语音合成已经很好地解决了清晰度和可懂度的问题，但是合成语音的自然度和表现力仍不尽如人意。合成语音和自然语音除了在音质上存在一定的差距以外，在韵律表达上也存在着很大差距，而韵律表现得好坏是影响合成语音自然度和表现力的关键，其具体表现在对节奏、轻重音、语调等的处理上；另外，合成语音缺少变化，如说话人对不同情感的表达不够恰当，也是合成语音听起来缺乏人情味的主要原因。　　韵律预测是合成系统的一个重要组成部分，韵律预测的结果将对最终合成语音韵律的表达有着直接影响。通常韵律预测包括对文本层韵律表示的预测和对声学层韵律参数的预测。文本层的韵律表示包括如停顿、轻重音、语调等；而声学层韵律参数则包括音高、音强、时长等，通常用韵律模型进行估计。本文从停顿预测、重音预测、韵律模型构建等角度来研究合成系统中韵律的自动预测问题，从而进一步提高合成语音的自然度。具体地讲，本文的研究内容主要从如下四个方面展开：　　1、采用可进行基元修改的波形拼接技术，建立一个基于大规模中性语音库和小规模情感语音库相结合的汉语语音合成系统。对比韵律类参数和音质类参数对合成语音的影响，得出二者对情感语音合成都有着重要影响，但韵律类参数起主导作用的结论。同时提出通过修改频谱包络综合地调整音质类参数来合成情感语音的方法，并通过实验验证这一方法的有效性，从而改善了以往为各个音质类参数单独建模、不够灵活的不足。　　2、从特征和模型两个角度研究语音合成系统中停顿指数的预测问题。在特征方面，采用词性、词长、标点、位置信息等浅层特征解决韵律词及语调短语的预测问题；针对浅层特征对韵律短语等中间韵律结构划分不够准确的不足，提出了基于依存分析得到的深层特征，如弧数、内弧跨度、内弧类型等的停顿预测方法。在模型方面，尝试了N-gram模型、马尔科夫模型和决策树等方法，用于解决语法词之间标注点的停顿指数的预测。除此之外，针对长语法词的内部划分问题，提出了一种长词内部切分模型。对于情感停顿指数的预测，提出了将基于错误学习的情感驱动和基于大规模中性语料训练出的模型相结合的方法，并通过实验证明采用大规模的中性训练模型进行情感语料停顿标注是可行的。　　3、根据听感建立自然风格的汉语重音标注语料库，分析轻声、重读音节同正常重音在基频、音节时长、强度、停顿长度等声学参数上的差异，研究时长与基频参数之间的关系、上声音调同基频的关系。提出了基于人工神经网络的三种句重音等级自动预测模型：利用声学参数建立声学重音预测模型；利用声调、词性、词位置、停顿指数等文本特征建立重音的语言学预测模型；综合利用声学参数和语言学参数，建立混合模型。另外，针对重音标注存在多样性的现象，提出支持率的评价方法。　　4、研究中性和情感汉语语音合成系统的韵律模型的构建，包括时长预测模型和基频预测模型。采用基于人工神经网络的方法建立时长模型。采用基于语料库的韵律生成以及基于基频模式的两种方法来建立基频模型。在基于语料库的韵律生成中，重点考虑距离的计算和最优路径的选择。而针对基于基频模式的基频模型，提出用基频模式、基频均值和基频范围三个参数来刻画基频曲线，从而降低了基频模式的类别数，保证了生成基频曲线的多样性。针对情感语料比较少的问题，提出了多种方法将较大规模的中性语料和情感语料相结合，进行情感韵律模型的训练。

其他文献

基于小波的仿射不变性图像检索

随着信息技术的发展，图像资源的日益丰富，基于关键字和描述文本的传统图像检索模式已不能胜任使用需要，有效检索海量图像数据的需求变得日益迫切。针对这一需求，基于内容的图像检

学位

图像检索仿射变换小波变换模式识别

盲信号分离算法比较与研究

为了研究对象的行为，人们需要用传感器对对象的行为进行采样，但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号，通常情况下传感器接收到的信号会被各种各样

学位

盲信号分离信号处理BSS方法学习法则自适应迭代计算

基于NP-1c网络处理器的防火墙的研究和实现

网络处理器是一种专门针对网络数据处理而设计的处理器，其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备，同时，也被用来开发网络安全设备，如硬

学位

网络安全防火墙网络处理器系统设计网络接口

基于支持向量机的文本分类在并行环境中的性能分析及应用

文本分类是指按照预先定义的主题类别，根据文档集合中的每个文档的内容，自动地分类到预先设定的类型集合中，使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重

学位

支持向量机文本分类性能分析串行程序并行化设计

基于蒙特卡罗抽样的军棋机器博弈的研究

机器博弈是人工智能一个传统而重要的研究领域.近些年,随着家庭电脑时代的来临、网络的兴起,计算机游戏在人们的娱乐生活中占有越来越重要的地位.以机器博弈为代表的人工智能

学位

机器博弈军棋非完备信息博弈蒙特卡罗抽样

基于非线性编码的英语重读音节识别及评估算法研究

在计算机辅助语言学习CALL（ComputerAssistedLanguageLearning）中，语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性，并取得良好的结果。对于口语中

学位

英语口语评估重读音节识别非线性编码语音信号处理分形理论多尺度分形维数

危险化学品物流监控和管理关键技术的研究与开发

危险化学品种类繁多，且具有易燃、易爆、毒害、腐蚀等特性，对我国的城镇、人群、河流造成不可忽视的威胁，其安全经营、储存、运输等工作显得十分重要。本文旨在上海市科委“现代

学位

危险化学品拓扑优化路径优化物流管理物流监控危险品运输

基于CMMI软件过程改进的度量及支持环境研究

软件能力成熟度模型集成(Capability Maturity Model Integration,CMMI)是由美国卡内基·梅隆大学的软件工程研究所提出的一套针对软件过程的管理、改进与评估的模式,其根本

学位

CMMI过程度量GQ(I)M过程改进度量建模

基于椭圆曲线和J2ME的移动通信安全研究

近几年,随着因特网的普及,计算机网络信息安全研究得到飞速的发展。但是,有线网络中的信息安全与无线网络既有联系也有区别。因此,研究无线网络的安全问题,在移动通信的高度

学位

移动通信安全扩展椭圆曲线密码体制J2ME

结构化深层网络数据库的探测估计

随着当今互联网的飞速发展，互联网上的信息挖掘也变得越来越重要。而在这大量的数据中，深层互联网中的信息不仅从数量还是从质量上来说，都大大地优于表层互联网。然而，相对于表层

学位

深层网络数据库半监督学习主动学习图融合探测估计互联网

高自然度汉语语音合成韵律预测技术研究

与本文相关的学术论文