论文部分内容阅读
近年来随着计算机及数字信号处理技术的发展,人机交互技术有了很大的进展,作为其中重要组成部分的语音合成技术也得到了迅速的提高。目前已有许多语音合成方法,合成语音的清晰度达到了令人满意的效果;而其自然度和韵律性还跟人们的期望有一定的差距,带有很大的机器味。从而寻找一种能够有效模拟自然语音的韵律特征的方法一直是语音合成技术的一个研究热点。语音的韵律特征包括基频、时长及幅度等,其中最主要的是基频。自然语音基频曲线的准确检测在语音信号处理中占重要地位;它不仅是我们分析自然语音的韵律特征的一个重要工具,而且在语音合成和语音识别中有广泛的应用。为提高合成语音的自然度,需要建立一个更加有效的基频模型,而良好的模型的建立是以自然语音基频曲线准确有效的检测为基础的。论文首先概述了课题的研究背景,并对语音的发音机制、语音产生的数学模型及语音的时频特性做了介绍。然后,对国内外基频检测的研究现状进行了回顾,论述了自相关法、倒谱法、平均幅度差法及小波变换等基频检测的原理及算法。简要的阐述了语音合成中的基频控制的现状;并对小波变换的原理及性质进行了详细的介绍。本文提出了一种基于最佳尺度的小波变换基频检测。传统的小波变换基频检测,通过比较相邻两尺度下的极值点的位置是否一致,来确定声门闭合时刻,求得基频。由于小尺度下容易引入伪极值点,需要进行多次的小波变换及极值点搜索和判定,降低了算法的准确性和实时性。本文提出的最佳尺度的小波变换基频检测方法,利用发声器官的生理特性以及语音基频曲线内在的特点,结合小波变换的优点,先进行最佳尺度的判定,然后在该尺度下进行基频检测。新算法不仅有效的去除了伪极值点,增强了检测的准确性;而且不必进行多个尺度下的极值点搜索和确定,利用改进的极值搜索方法,提高了算法的实时性。论文利用提出的基频检测方法,对一标准单音节语音库进行了基频的提取,阐述了各个声调的典型基频曲线模式。在此基础上对Target模型中的Target进行更详细的分类,设置了更加合理的Target;在设定好Target模型的表达式后,用改进的小波变换的基频检测方法来提取基频曲线,然后采用基于合成的分析方法,按照最小均方误差的准则来进行模型参数的求解;重新拟和后的基频曲线与原模型相比,更准确的反映了实际基频曲线的变化情况,从而证明了新模型的有效性。论文的最后对论文中的工作进行了总结,指出了实验中存在的不足,并对以后的研究工作提出了思路。