结合听感度量的语音合成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ehvv5022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来语音合成技术发展迅速,并在越来越多的实际场景中得到了应用。基于大语料库的单元挑选与波形拼接方法和基于统计建模的参数合成方法是目前最为主流的两种语音合成方法。这些方法通常在训练阶段提取语音声学特征并构建统计模型,在合成阶段依据特定准则实现单元挑选或参数生成。在现有语音合成方法中,常用的声学特征包括基频、倒谱、线谱对等,常用的单元挑选与参数生成准则包括最大输出概率准则等。这些特征和准则往往基于语音产生机理和统计学方法进行设计,而从语音听觉感知角度进行的考虑较少。在另一方面,合成语音的质量评估仍然依赖于测听人的主观评分。在特征选择与合成准则中对于听感度量的考虑不足,制约了现阶段方法合成语音质量的进一步提升。因此,本文围绕结合听感度量的语音合成方法展开研究工作。一方面,研究了单元挑选与波形拼接合成中结合主观评价数据的单元挑选准则设计方法,通过构建合成错误检测器,实现了将测听人对合成语音的主观评价信息融入单元挑选准则,提高了合成语音的自然度;另一方面,研究了统计参数语音合成中结合听感相关声学特征的建模与生成方法,利用调制谱、多分辨率时频分析等与听觉感知机理相关的声学度量,对传统声学特征的建模与生成方法进行了改进,提高了合成语音的主客观质量。本文的安排如下,第一章是绪论,简要介绍了语音合成的概念、意义以及发展历史,重点介绍语音合成的研究现状,并提出了本文的研究目标和研究内容。第二章将提出一种结合主观评价数据的单元挑选语音合成方法。该方法首先利用众包网络平台快速、大量地收集测听人对合成语音的主观评价数据,然后基于这些数据构建合成错误检测器,最后将上述检错器的打分结果融合到单元挑选准则中。实验结果显示该方法能够有效改善合成语音的自然度。第三章将介绍结合听感相关声学特征的统计参数语音合成方法。首先介绍了调制谱和多分辨率时频分析的基本概念,包括其听觉生理基础与计算提取方法;然后研究了基于调制谱补偿的参数合成音质增强方法,设计实现了多种面向线谱对特征的调制谱计算策略,实验结果表明,先将线谱对参数转换为梅尔倒谱参数后再求取调制谱,可以取得最优的调制谱补偿性能,有效提高合成语音的主观质量;最后研究了结合多分辨率时频分析的参数语音合成声学建模方法,该方法采用了基于深度神经网络的声学建模方法和多任务学习机制,分别尝试了将听觉谱特征和听觉皮层输出特征作为模型训练的次要任务,实验结果表明,采用听觉谱特征作为次要任务可以提升倒谱特征的预测精度。第四章总结全文,并提出对未来工作的展望。
其他文献
随着互联网技术的飞速发展,无线校园网用户的网络安全认证问题日益突出。当前比较成熟的安全认证技术有PPPoE、WEB和IEEE 802.1X等。然而WEB认证方式中服务器端口直接可达,易
双基地合成孔径雷达(BiSAR)作为传统单基地SAR的延伸,由于其自身的灵活性和对低散射截面物体的探测成像能力,大大地拓展了SAR的应用范围。具有移变(translational-variant)特
手写笔作为十分重要的信息输入方式,影响着人们的生活。本文进行的是基于惯导信号的手写笔笔迹检测的研究,主要是通过对获得用户在书写过程中的惯导信号进行分析处理,最终可以检
高分辨成像一直是雷达成像不断追寻的目标。为了达到这一目的,最常见的做法是提高发射信号的带宽,但是超宽带信号的产生和处理会带来很大的硬件压力。本文重点介绍了一种通过
口语评测是一种学生按照某种要求发音,计算机根据学生发音的标准程度来自动评分的技术。传统的文本相关评测任务要求学生严格依照指定的文本发音,对应朗读或者严格背诵的情境
语种识别(Language Identification, LID)是对一段语音自动识别出其所属语言的种类的过程。由此可知,语种识别是一种针对语音段进行的模式识别,因此语种识别中的一个关键问题
在互联网迅速发展的今天,收听广播仍然是人们日常生活中的一项重要组成部分,因此对广播天线的研究,提高远场辐射效率,减小近场辐射功率,以保障广播发射台工作人员的身心健康,
纠错编码是无线通信系统中非常重要的一个子系统,该模块的性能会极大影响到整个通信系统的性能。作为全球微波接入互通(WiMAX, World wide Interoperability for Microwave A
卡尔曼滤波经过30多年的研究、应用与发展,已经成为最优估计理论中一种最重要的方法广泛应用于各种领域,并展现出非常广阔而诱人应用前景。本文首先简要回顾了卡尔曼滤波研究的