论文部分内容阅读
语音合成技术是人机交互研究中比较重要的技术之一,并且已经应用到了社会生活的许多领域。语料库构建技术作为语音合成技术开发中的一个重要模块也受到研究人员的普遍关注。快速构建语音合成语料库的研究具有重要意义。目前,解决此问题较为成熟的技术是传统的构建语料库的方法。在传统的语音合成系统的构建中,首先要收集大量的文本资料,然后从文本中选择文本然后进行文本的录音和标注工作。对于英语语音合成系统的构建中,发音人的发音水平对合成语音的自然度和表现力方面都有重要的影响,是语音合成系统实现中要解决的重要问题。由于本试验室非母语发音人的关系,不能够实现纯正的发音水平。考虑到在网络中存在着海量的电子文本及其对应的语音录音(例如MP3形式)的优势,所以要采用新的方式实现语音合成系统。本文所做的工作是实现语音合成系统的一个组成部分-限定文本的语音合成语料库的自动构建。所要实现语音合成系统的方法是首先从网络中自动下载语言教学类网站中的基于特定人的文本和语音。我们从美国之音网站中下载了Faith Lapitus的语音MP3文件和对应的文本文件。由于发音人是新闻节目主持人,解决了实验室非母语发音人发音不标准的问题。由于在语音文件中存在音乐音频,所以需要实现语音和音乐音频分类,挑选出语音音频文件。由于构建语音合成语料库通常的方法都是使用句子,所以需要把这个的文本篇章形式的文件转换为句子形式的,所需要做的是句子切分,本文所实现的就是最后把得到的切分正确的句子集合作为初始文本集合来构建语音合成语料库。由于文本的选择是必须存在录音的情况下进行选择的,所以本文命名为在限定条件下的语料库构建。本文对语料库构建的常用方法一文本选择方法进行了研究和介绍,贪婪算法是解决文本选择问题常用的方法,我们应用贪婪算法进行了文本选择,并且结合信息检索中的方法,使用开源软件语音识别工具HTK和语音合成工具Festival实现语料库的构建过程。从实验中我们得到的最后结果就是基于特定人的文本选择中,双音素的覆盖率为93.52%。本文的主要工作和创新点有:(1)本文是一种全新的语音合成系统实现的组成部分。(2)本文采用与信息检索方法相结合的方法实现语料库的自动构建。这说明将信息检索方法和文本分类方法应用到贪婪算法中实现语料库的自动构建过程,可以提高语音单元的覆盖率,从而实现语音合成系统语料库的自动构建。