中文语音合成系统中的文本正则化和韵律结构预测方法的研究

来源 :北京邮电大学 | 被引量 : 16次 | 上传用户:huanying19870604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的进步和其他相关学科的发展,在过去的几十年间,语音合成技术有了迅猛的发展,涌现出了大量的新理论和新技术。TTS (Text-To-Speech)中文语音合成技术,又称为文语转换技术,是将文本转换成为语音的一项核心CTI技术。可以通过输入文本,让计算机像人一样说出具有高自然度和智能的语音。这项技术已经被广泛应用于电信服务,嵌入式移动设备和娱乐增值服务等各个方面。对合成系统输出语音音质的评价是多方面的,但是主要体现在输出语音的可懂度和自然度上。当前,TTS系统的输出语音的可懂度主要体现在前端文本处理的模块上,现在技术已经达到了不错的水平,但是在处理中文文本的非标准词上还有所欠缺,尤其是阿拉伯数字串,各种非标准符号等。而语音的自然度则重点体现在韵律结构预测模块中,当前中文语音合成输出语音的整体自然度方面还有待提高,其根本问题就是不能对自然语流中的韵律进行有效的模拟。韵律处理的研究主要有以下几个方面:韵律预测,韵律规则,韵律描述和韵律建模。本文主要研究了中文语音合成系统前端的文本正则化模块和韵律结构预测模块,希望通过对以上两个模块的研究与改进来提高合成语音的可懂度和自然度。TTS系统的输入是无限制的文本,从文本中只确定读音是远远不够的。为了提高语音的可懂度和自然度,还需要从文本中提取更多的与文本和韵律相关的信息。研究表明,TTS系统如果能够对各种非标准词作出正确的识别,将对合成语音的可懂度有很大的帮助;同时,引入韵律层级结构可以显著提高合成语音的质量,特别是合成语音的自然度。如何提高文本正则化和韵律结构预测的正确率是本文研究的重点。本文从中文语言的特点出发,分析和研究了中文文本中经常出现的非标准词,对其中的日期、电话号码、机构名称以及网络用语等进行了分析归类,对这些读音不能通过正常拼音规则得到的非标准词的读音生成方式进行了重点研究。对传统的中文文本正则化的方法进行了总数和比较,指出了传统中文文本正则化方法的优缺点,然后重点研究了基于最大熵模型的文本正则化方法,并应用于实际的中文语音合成系统中。同时,本文从汉语的声学特点和韵律特征出发,分析和研究了汉语的韵律特征、停顿、重音以及韵律边界之间的关系,分析并对比了汉语韵律层级结构,同时分析了韵律边界的声学特征。对传统的韵律结构预测的方法进行了综述和比较,指出传统韵律结构预测方法的优缺点,然后重点研究了基于条件随机场模型的韵律结构预测方法,并应用于实际的中文语音合成系统中。在基于最大熵模型的韵律结构预测系统的研究中,在理论上,本文详细阐述了最大熵模型模型的定义,条件分布以及参数估计。在应用上,本文重点研究了最大熵模型的特征模板,并讨论了窗长选取和动态特征的作用等问题。在基于条件随机场的韵律结构预测系统的研究中,理论上,本文详细阐述了条件随机场的定义,条件分布以及参数估计。在应用上,本文重点研究了条件随机场的特征模板,并讨论了窗长的选取,复合特征的作用等问题。并与传统的文本正则化和韵律结构预测方法进行了性能上比较和分析,在性能上有显著的提高。
其他文献
为充分调动水利职工的积极性和创造性,建立一支精简高效的水管队伍,水管单位积极贯彻中央精神,深入开展机构体制改革.改革借鉴了国有企业及政府机构改革中的有益经验,经历了
近年来,中央加大水利基础设施投资力度,水利前期工作得到重视,水利前期工作经费也有了较大幅度的增加.
由于话音技术的巨大发展和光纤在世界范围内的广泛应用,近十年中核心传送网的传输容量有了巨大的增加。商业上1Tb/s传输系统仅用可设置在架子上的设备就可以实现,现有的最先进
当前无线通信中高容量、高数据速率的业务要求日益增长,而无线通信信道的衰落特性严重制约了通信系统的性能。自适应传输技术根据信道状态自适应的调整传输方式,以最大化的利用
随着电子计算机的发展和普及,办公自动化水平日益提高,在水利工程建设当中,产生了大量的电子文件,形成了电子档案.电子档案和传统的纸质档案有根本的差异:电子档案是由电子文
霍山县位于安徽省西部大别山腹地,属淮河流域中游丘陵山区,为全省水土流失重点治理区.全县土地总面积2040.4km2,其中水土流失面积791.23km2,占土地总面积的38.78%.全县山多地
我国水闸数量众多,分布广泛,各类水闸在防洪抗旱、供水灌溉、航运及挡潮等方面做出了巨大贡献.做好水闸管理工作,对于保障水闸安全运行,发挥水闸的社会经济效益,具有十分重要
Femtocell可以提高室内信号的覆盖率,为家庭住宅或者小型办公场所等场景的室内用户提供更高质量的服务。因此Femtocell得到了广泛的部署,与传统的宏网络构成了异构网络。同时
多输入多输出(Multiple-Input Multiple-Output,MIMO)技术通过在发射端与接收端的多天线配置,提供丰富的空间复用增益和空间分集增益,能够在不增加系统带宽的条件下极大的提高无
本文以无线数字固定中继蜂窝系统为研究背景,研究蜂窝中继网络中的关键问题,重点对中继部署结构和频率规划方案设计进行了全面而深入的研究。本文针对引入中继后的蜂窝系统,