论文部分内容阅读
语音合成是人机交互的核心技术之一,也是中文信息处理中的一个难题。语音合成的目标是将文字信息自动转换为清晰、流畅的语音,它的研究对自动控制、智能机器人和人机语音通讯系统等的研制具有重要的理论意义和实用价值。随着计算机技术和通信技术的发展,基于语料库的语音合成技术越来越引起社会的关注。藏文信息处理作为中文信息处理的重要组成部分,经过二十多年的发展,在分词、标注及词频统计等方面得到了长足进展,但藏语语音合成技术研究才刚刚起步。目前对藏语语音合成有价值的许多属性未能被挖掘和描述,对藏语本体的研究也不够深入。例如,现有系统还不能对藏语的韵律特征进行定性与定量分析,也不能通过文本分析为系统提供必要的控制信息等。本文立足于藏语言文字本体,从语言学和语音学角度研究藏文的文本特征和藏语韵律特征,并基于语料库语音合成技术,设计实现了一个实用的基于混合基元的藏语语音合成系统。文章的主要工作包括以下几个方面:(1)从藏语文本入手,研究了非藏文字符和句子边界识别等语音合成的预处理问题,并根据藏语语音合成的实际需要,提出了基于词性约束的藏文分词算法。相对于传统分词算法,该算法通过词性搭配规则避免了大多数交集型和包孕型歧义的产生,改进紧缩词和未登录词的识别策略,使分词的效率得到了明显改善。另外,为了解决未登录词的语音合成问题,给出了藏文字构件分解算法,并通过开发藏文字构件分析系统验证了算法的性能。同时,将该系统从大规模语料中统计的构件分布信息用于指导基元的选取与语料库的构建。该内容见第二章。(2)从声学及语法特征入手,统计分析安多藏语的韵律层级结构、重音模式及语调现象,研究了藏语的韵律控制规则。首先,提出了藏语的韵律层级结构预测算法,该算法综合运用虚词频度与韵律短语长度信息动态地标记韵律单元边界,避免了韵律层级结构划分过分依赖于分词结果的现象,保证了韵律层级结构的完整性。其次,计算出各级重音的相对系数。合成时先分配韵律词、韵律短语和语调短语的语法重音,然后根据各级韵律单元重音的相对系数计算目标语句的强调重音。最后,给出陈述句、疑问句、祈使句和感叹句的语调特征及语调规则。实验数据证明,本文的韵律规则对语音的韵律表达起到了重要作用,语音的自然度得到较大的改善。该内容见第三章。(3)基元选择是建立结构合理、规模适中的语料库的基础,也是基于语料库语音合成的关键。为了提高系统的韵律表现并兼顾基元的搜索空间,提出混合基元库构建策略,并给出相应的基元选择算法。主、客观实验数据表明,混合基元库策略与算法有效地保留了大基元的完整性与小基元的灵活性及鲁棒性。为了避免语音合成时对基元做过多的算法调整,文章基于混合基元库采用多样本波形拼接策略,即一个(文本)基元在语音库对应多个候选样本。同时研究了多样本语音库的组织策略与搜索算法。实验证明,与传统算法相比,该算法提高了合成速度,增强了系统的实时性。该内容见第四章。(4)以安多藏语语音合成系统为代表介绍了藏语语音合成系统的设计思想、目标、功能特色及性能评测结果。该系统在文本分析、韵律控制方面都比较有特色,为我们继续研究语音合成技术提供了实验平台。该内容见第五章。