语音合成及其韵律研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:thebestsolutions
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息技术的飞速发展,人机交互方式发生了重大的变化,应运而生的语音合成技术是将计算机自己产生的或从外部输入的文字、符号、数字等信息转换成自然流畅的语音信号输出,这种技术又称文语转换技术(Text to Speech,简称TTS)。早期的TTS系统多采用参数合成方法,该方法在理论上相对比较成熟,易于实现,但实际合成的连续语音总是不够清晰、自然。近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。由于这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。但是,目前在拼接式语音合成中所采用的信号处理技术仅仅适合于对原始基元的基频、时长、能量等韵律特性进行修改,而对于拼接基元的频谱特性则无法进行适当的修改来满足相应的语音发声差异的变化。由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元,韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使计算机能自动发现和找出所需的语音单元,保证最高的合成语句的自然度等等。在语音合成领域研究者们最关心的问题之一依旧是如何提高合成语音的自然度。现有语音合成的研究方法能在一定程度上提高语音的合成度,但还不能得到人们理想的合成效果。影响合成语音质量的一个很重要因素在于目前使用的韵律规则不够完善。  本文以当前语音合成技术的发展方向为研究的出发点,首先优化了韵律参数,并将其应用到关联规则对韵律参数进行规则提取的方法中,提出采用优化韵律参数后的规则提取过程,并对原有的Apriori算法进行改进而获得更适合语音合成的ODApriori算法,通过该算法可将原有Apriori算法得到的韵律规则进一步细分,得到更多研究者感兴趣的规则。其次语音合成技术的应用不可能总是建立在无限大的语音数据库基础上,为了将数据库控制在合适的范围内,提出了一种使语音特性尽可能体现的数据库设计方法。该方法利用韵律信息进行语音合成,基于这种方法合成出来的语音与完全基于规则的方法合成出来的语音相比,通常具有更高的语音质量。最后,利用微软语音开发包实现了中英文双语文语转换系统,向实现多语种合成系统的方向迈出了一步。
其他文献
该文完成了对一个多El集样式路由器的网管设计与实现.主要工作包括:(1)分析了多CPU环境下的进程间通信机制.(2)论述了网络管理的基本概念和功能.(3)论述了SNMP的原理,体系结
企业内部控制体系和财务管理工作互相联系,进入新时代,国企要更好地稳步带动国民经济的发展,为社会主义经济建设贡献力量,就应该重点关注内部控制体系和财务管理的相关性,解
该文重点研究了IEEE802.11a的信道编码及可能的改进方案.首先介绍了纠错编码原理以及硬判决和软判决的实现方法.然后在硬判决解码条件下,对IEEE802.11a标准下的无线局域网物
该文主要做了以下几部分工作.第一,提出了以利用参考系统如全球定位系统(GPS)校正惯性测量单元(IMU)的系统误差为核心的易于实时实现的高分辨率机载SAR运动补偿方法,并证明了
随着语音信号数字处理技术在人们日常生活中越来越广泛的应用,这些技术的稳定性及其对使用环境的适应能力都变得越来越重要。由于实际应用环境中背景噪声的存在,如何有效的去
应对产能过剩、供需错配的经济形势,国家适时提出“供给侧”结构性改革.供给侧改革具有宏观、微观两方面的含义.本文从微观企业的角度,结合管理会计的特点的功能,分析供给侧
在该课题的研发中,采用了三种传输技术来承载以太网帧:根据ITU-T的X.86规范用SDH/SONET的STM_1/STS_3c承载:用PDH中的DS3承载:采用VDSL技术使用用户环路中的模拟双绞线承载.
随着社会的发展,医院的运行模式也在不断的进步.本文主要探讨基于业财融合的医院全面预算管理的相关内容,分析了医院全面预算管理中的问题,并就相关的问题,提出了促进发展的
对于WLAN技术,数据速率和网络安全是最主要的两个方面.高数据速率促进了它的兴起;网络安全则限制了它的应用.该文立足于802.11WLAN网络结构本身,对网络安全进行了研究,并针对
以可见光为载波的无线通信系统具有宽带宽、大容量、高速率、频谱资源丰富且不受管制、保密性好、抗多径干扰性能好、电路系统结构简单等优点。因此,对可见光波无线通信技术