论文部分内容阅读
本论文的工作以一个基于大语料库的英文文语转换(TTS)系统的开发为背
景,针对英文TTS系统中的韵律生成及字音转换中的一些关键问题展开研究,
其中字音转换更是本文研究的重点。主要内容和研究成果如下:
1.词性标注:由于词性信息是韵律生成和字音转换研究的基础,因而必须
先解决词性标注问题。本文提出了一种基于决策树的词性标注的非监督学习算
法,该算法以一个词库和一个未进行词性标注的语料库为基础,通过上下文中
没有词性歧义的词来分类有词性歧义的词。
2.语调短语边界的预测:语调短语边界的预测是韵律生成模块的重要组成
部分。本文先根据语音库的实际停顿标注出其中的中间短语和语调短语,然后
以该语料库为基础,提出一种基于转换式学习法的语调短语边界预测的学习算
法,并辅之以标点符号约束规则及语调短语音节数约束规则。
3.字音转换:英文的字音转换非常复杂,本文将之拆分成3步,即字素切
分、字素/音素转换及重音标注。对于字素切分问题,本文提出了一种名为有限
泛化法(FGA)的机器学习算法来进行字素切分规则的学习。然后将FGA进一
步改进为动态有限泛化法(DFGA),以用于字素/音素转换规则的学习。与FGA
相比,DFGA学习的对象是动态的,包括前缀、后缀及一般字素与音素的转换;
属性的数目是动态的,最少为3个,最多为8个;此外,属性的位置也是动态
的。
4.重音标注:仅仅将英文单词中的字母转换成音素还是不够的,只有在标
注完重音后,才能形成完整的音标。由于主重音的重要性要远远大于次重音,
并且主重音的情况要比次重音简单,因而本文将主重音和次重音分开进行标注。
对于主重音的标注提出了一种基于形态规则与机器学习方法相结合的算法,对
于一些可直接借助其形态结构来判别主重音的情况,制定主重音标注的形态规
则;而对于一般的词,则通过转换式学习法进行机器学习。由于次重音的情况
更为复杂,基本上无法通过形态结构来判别次重音的位置,因而直接通过转换
式学习法进行学习。
5.音节切分:由于音节是基于大语料库的英文TTS系统中一个重要的拼接
单元,因而必须将合成文本中所有单词的音标切分成音节。本文提出了一种基
于约束树的音节切分算法,通过应用形态规则约束、韵律规则约束及音位规则
约束进行音节切分。在实施音位规则约束时,提出了一种基于音位结构树的子
算法。
6.多音词消歧:一般而言,多音词可分成两类,一类是因词性不同而读音
不同,另一类是因词义不同而读音不同。前者的消歧比较简单,只需对合成文
本进行词性标注,根据多音词的词性标记就可以选择正确的读音。而后者的消
歧就复杂得多,本文提出了一种基于WordNet语义信息的多音词消歧算法,该
算法将多音词的语义信息与上下文中词的语义信息进行加权匹配,根据匹配结
果来判别多音词的读音。
上述各种算法和研究成果,均已在我们所开发的英文TTS系统中得到实现
和检验。实验表明,合成语音的可懂性和自然度均有了显著的提高。
关键词:英文文语转换,韵律边界预测,词性标注,字音转换,音节切分,
多音词消歧