论文部分内容阅读
近年来,语音合成技术在技术研发和实际应用方面都得到了飞速的发展。合成语音在音质和自然度上均有了明显的提高。目前主流的语音合成方法主要有基于隐马尔可夫模型(Hidden Markov Model, HMM)的参数语音合成方法以及基于大语料库的波形拼接合成方法。在采用这些语音合成方法构建合成系统时,需要先进行音库的构建。音库构建所需要的语音资源可以通过多种方式获取:既可以专门针对语音合成进行语料设计并录制音库,也可以利用已有的语音数据(例如视频、有声读物等多媒体资源)。但无论对于哪一种方法,均离不开音库的标注。合成音库的标注包括音段标注以及韵律标注:其中音段标注具体指标出音素序列并进行切分,音素切分指的是标注各个音素的起始和结束时间,切分信息通常只用于模型的初始化。现有的自动音段标注技术已经基本可以满足系统构建的需要。而韵律标注则是对语音的韵律信息进行标注,待标注的韵律类型与语言相关,例如对于中文合成系统韵律标注主要是指韵律层级的标注。韵律信息在合成系统中是作为模型的上下文信息来使用的,其标注的准确性将直接影响到合成语音的质量。对于合成音库的韵律信息,通常需要专业的标注人员进行标注。然而,随着音库规模的增大,人工标注的工作量急剧增加,此时通常需要多个标注人员参与韵律标注工作,标注的成本十分巨大;此外,韵律标注具有一定的主观性,保证不同标注人员之间标注结果的一致性较为困难。因此,如何通过计算机自动准确地进行合成音库的标注已成为当前的一个重要的研究方向。论文的研究工作将围绕合成音库的自动标注展开,针对不同的应用场景以及不同风格的音库,论文提出了相应的方法对韵律信息进行标注。整篇文章的主要工作包含以下几个方面:提出了基于HMM声学建模与状态解码的自动韵律标注方法。采用该方法进行合成音库自动标注的优势包括:在基于声学特征分布进行韵律标注时可以充分考虑其他已知标注信息对于分布参数的影响;通过整句解码的方式确定韵律标注结果,考虑了句中不同位置处韵律标注间的相关性;使用与语音识别类似的算法框架,可以借鉴语音识别中较为成熟的模型训练与解码算法。在具体实现中:我们首先提出基于穷举搜索的韵律短语边界自动标注方法,分析了合成系统中不同特征与上下文信息对韵律标注性能的影响,验证该方法的可行性;在此基础上我们又提出了基于维特比搜索的韵律短语自动标注方法,在保证标注结果准确性的前提下,提高了标注的效率。设计并实现了用于自动韵律标注的深度神经网络—隐马尔科夫模型(Deep Neural Network-HMM,DNN-HMM)声学建模方法,该方法利用了DNN相对于高斯混合模型(Gaussian Mixture Model,GMM)更强的声学建模能力进一步提高自动韵律标注的准确率。提出了结合特征聚类初始化与HMM声学建模的无监督自动韵律标注方法。该方法可以在没有人工韵律标注数据的情况下进行合成音库的自动韵律标注,从而自动地构建多发音人以及多发音风格的个性化语音合成系统。我们通过对朗读风格音库的韵律短语边界标注实验和对故事风格音库的重音位置标注实验,验证了该无监督韵律标注方法的有效性。提出了基于隐藏重音状态的无监督重音标注与合成方法。在上一部分的工作中,重音标注是作为一个普通的上下文信息参与决策树聚类,但是在重音单元数量比较少的情况下,重音信息在决策树聚类中难以得到体现,这样导致难以训练得到精确的重音/非重音模型,从而影响了重音标注的性能以及重音在合成语音中的体现。因此,这里我们考虑将重音信息从其他上下文信息中分离出来,引入重音状态层,使用线性变换来表征重音信息对声学特征分布的影响。该方法一方面可以避免重音稀疏性对模型精度的影响;另一方面该方法通过隐藏重音状态层以概率的形式对重音标注进行描述,改善了前一部分工作中二值化的重音标注对实际语音进行描述时的不足。