论文部分内容阅读
目前世界上最新的文语转换系统(Text-to-Speech)虽然能够合成可以很容易理解的话语,但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在合成表现力上差的缘故。例如卡内基梅隆大学的ARCTIC语音语料库。建立一个含有丰富的韵律特征以及上下文信息的ARCTIC语音语料库。建立一个蕴含丰富的韵律信息以及上下文特征的语音语料库是合成具有高自然度以及良好表现力的语音的先决条件。然而,构建此类语音语料库往往需要耗费大量的人力,物力和财力,而且构建周期也相对较长。另外一个可替代的方法就是利用网络上现有的长篇幅多段落的语音预料作为训练数据的来源,例如,新闻播报或者是VoiceBook,这些数据中多数都蕴含有丰富的韵律特征以及上下文信息,其中包括重音,音调以及停顿等特征。但是,处理此类音频数据会面临长篇幅语音的自动切分,以及有效音频片段的自动抽取等问题。由此说来,一种语音语料库的自动构建技术提出,这种技术能够将网络上现已有的大量的音频数据以及对应文本中真正可用的部分自动抽取出来,用作训练语音语料,这将会大大缩短语音语料库的构建周期。除此之外,还应该有一种针对长篇幅语音的全自动的句子切分算法,能够将上面已经被正确抽取出来的篇幅语音和文本切分成独立的句子,这样一来,不仅能够大幅度的降低构建成本,节约人力,物力等资源,而且对于最终的语音合成表现力也会有大幅度的提高。按照这个思路,本论文在针对基于HMM的语音合成系统中的语音语料库的自动构建技术和长篇幅的语音句子全自动切分技术方面进行了深入而系统的研究,本文具体的研究工作和研究成果按照如下展开:首先,本文提出了一种长篇幅语音句子全自动切分技术。该算法首先利用基于HMM的Force-alignment无监督算法在频谱参数的基础上做初始迭代,形成一个精确的初始标注集,再利用半监督学习的方法在韵律参数的基础上对上面无标注的句子切分算法所得到的少量精确标注集进行自动扩充,以达到最大化精确标注集合的目的,然后,经过一层检查机制针对得到的句子边界标注集再做进一步的检查以确保结果的正确性。上述整个过程是通过建立一种基于时间轴的迭代机制进行相互迭代来完成。实验表明,通过该算法句子切分准确率能够达到96.2%。最后,再依据得到的正确的句点将原始篇幅语音切分成更小的段落或是句子的集合。其次提出了一种基于GoogleVoice的文语自动对齐技术。这是建立在GoogleVoice上的一种依赖于识别的方法。通过将识别结果跟原始文本相对照,并采用一种将模式匹配和强制对齐(Force-alignment)技术相结合的技术将其中真正可用的训练语音语料抽取出来,与此同时,一种迭代机制也被提出并用于识别过程以求最大化将有效部分从原始音频和文本中抽取出来,并最终将其合并成完整的篇幅来构建语音语料库。最后作为一种评估手段,本文又提出了一种基于HTK的中文孤立词识别系统,用于评估上面提出的语音语料库的自动构建方法的性能。实验表明我们提出的技术方法能在无人工干预的情况下快速地,自动的构建可用于Trainable TTS的语音语料库。