高自然度汉语语音合成韵律预测技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wp61wp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有表现力。目前汉语语音合成已经很好地解决了清晰度和可懂度的问题,但是合成语音的自然度和表现力仍不尽如人意。合成语音和自然语音除了在音质上存在一定的差距以外,在韵律表达上也存在着很大差距,而韵律表现得好坏是影响合成语音自然度和表现力的关键,其具体表现在对节奏、轻重音、语调等的处理上;另外,合成语音缺少变化,如说话人对不同情感的表达不够恰当,也是合成语音听起来缺乏人情味的主要原因。  韵律预测是合成系统的一个重要组成部分,韵律预测的结果将对最终合成语音韵律的表达有着直接影响。通常韵律预测包括对文本层韵律表示的预测和对声学层韵律参数的预测。文本层的韵律表示包括如停顿、轻重音、语调等;而声学层韵律参数则包括音高、音强、时长等,通常用韵律模型进行估计。本文从停顿预测、重音预测、韵律模型构建等角度来研究合成系统中韵律的自动预测问题,从而进一步提高合成语音的自然度。具体地讲,本文的研究内容主要从如下四个方面展开:  1、采用可进行基元修改的波形拼接技术,建立一个基于大规模中性语音库和小规模情感语音库相结合的汉语语音合成系统。对比韵律类参数和音质类参数对合成语音的影响,得出二者对情感语音合成都有着重要影响,但韵律类参数起主导作用的结论。同时提出通过修改频谱包络综合地调整音质类参数来合成情感语音的方法,并通过实验验证这一方法的有效性,从而改善了以往为各个音质类参数单独建模、不够灵活的不足。  2、从特征和模型两个角度研究语音合成系统中停顿指数的预测问题。在特征方面,采用词性、词长、标点、位置信息等浅层特征解决韵律词及语调短语的预测问题;针对浅层特征对韵律短语等中间韵律结构划分不够准确的不足,提出了基于依存分析得到的深层特征,如弧数、内弧跨度、内弧类型等的停顿预测方法。在模型方面,尝试了N-gram模型、马尔科夫模型和决策树等方法,用于解决语法词之间标注点的停顿指数的预测。除此之外,针对长语法词的内部划分问题,提出了一种长词内部切分模型。对于情感停顿指数的预测,提出了将基于错误学习的情感驱动和基于大规模中性语料训练出的模型相结合的方法,并通过实验证明采用大规模的中性训练模型进行情感语料停顿标注是可行的。  3、根据听感建立自然风格的汉语重音标注语料库,分析轻声、重读音节同正常重音在基频、音节时长、强度、停顿长度等声学参数上的差异,研究时长与基频参数之间的关系、上声音调同基频的关系。提出了基于人工神经网络的三种句重音等级自动预测模型:利用声学参数建立声学重音预测模型;利用声调、词性、词位置、停顿指数等文本特征建立重音的语言学预测模型;综合利用声学参数和语言学参数,建立混合模型。另外,针对重音标注存在多样性的现象,提出支持率的评价方法。  4、研究中性和情感汉语语音合成系统的韵律模型的构建,包括时长预测模型和基频预测模型。采用基于人工神经网络的方法建立时长模型。采用基于语料库的韵律生成以及基于基频模式的两种方法来建立基频模型。在基于语料库的韵律生成中,重点考虑距离的计算和最优路径的选择。而针对基于基频模式的基频模型,提出用基频模式、基频均值和基频范围三个参数来刻画基频曲线,从而降低了基频模式的类别数,保证了生成基频曲线的多样性。针对情感语料比较少的问题,提出了多种方法将较大规模的中性语料和情感语料相结合,进行情感韵律模型的训练。
其他文献
随着信息技术的发展,图像资源的日益丰富,基于关键字和描述文本的传统图像检索模式已不能胜任使用需要,有效检索海量图像数据的需求变得日益迫切。针对这一需求,基于内容的图像检
为了研究对象的行为,人们需要用传感器对对象的行为进行采样,但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号,通常情况下传感器接收到的信号会被各种各样
网络处理器是一种专门针对网络数据处理而设计的处理器,其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备,同时,也被用来开发网络安全设备,如硬
文本分类是指按照预先定义的主题类别,根据文档集合中的每个文档的内容,自动地分类到预先设定的类型集合中,使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重
机器博弈是人工智能一个传统而重要的研究领域.近些年,随着家庭电脑时代的来临、网络的兴起,计算机游戏在人们的娱乐生活中占有越来越重要的地位.以机器博弈为代表的人工智能
在计算机辅助语言学习CALL(ComputerAssistedLanguageLearning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得良好的结果。对于口语中
危险化学品种类繁多,且具有易燃、易爆、毒害、腐蚀等特性,对我国的城镇、人群、河流造成不可忽视的威胁,其安全经营、储存、运输等工作显得十分重要。本文旨在上海市科委“现代
软件能力成熟度模型集成(Capability Maturity Model Integration,CMMI)是由美国卡内基·梅隆大学的软件工程研究所提出的一套针对软件过程的管理、改进与评估的模式,其根本
近几年,随着因特网的普及,计算机网络信息安全研究得到飞速的发展。但是,有线网络中的信息安全与无线网络既有联系也有区别。因此,研究无线网络的安全问题,在移动通信的高度
随着当今互联网的飞速发展,互联网上的信息挖掘也变得越来越重要。而在这大量的数据中,深层互联网中的信息不仅从数量还是从质量上来说,都大大地优于表层互联网。然而,相对于表层