基于二叉树结构的汉语韵律边界研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:linjiachou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成的任务是将文字的输入自动转换成语音的输出。它在公共信息咨询与发布、语音应答、电子邮件中的语音服务、文稿校对、自动口语翻译以及残疾人语音辅助等许多方面有很广泛的应用前景。 可懂度和自然度是衡量语音合成质量的主要指标。合成高可懂度、高自然度的语音,一直是语音合成所追求的目标。现阶段合成语音的可懂度已经达到了较高的水平,但自然度还不够理想。主要问题是节奏感较差,缺少轻重缓急和抑扬顿挫。因此,实现恰当的韵律切分,正确地把握话语的韵律结构,是加强合成语音节奏感、提高其自然度的关键,具有重要的意义。 本论文的工作围绕韵律结构这一影响合成语音自然度的关键问题,从以下两个方面展开: (1)基于文本的韵律边界预测 (a)基于二叉树结构的韵律边界预测模型 针对人工韵律标注大规模训练语料的困难和不足,本文首先对汉语书面语中的标点符号和有声语言中的语音停顿进行了比较和分析;并在此基础上,提出利用汉语文本中的标点符号位置模拟韵律结构的边界,并使用词和词之间出现标点的可能性大小估计该位置作为韵律边界和出现语音停顿的概率。其次,根据句子各个语法词边界作为韵律边界的概率估计值大小,并采用树结构生成算法,为句子建立二叉树形结构;最后,依据二叉树结构并结合韵律学知识,分别提出了基于二叉树结构的韵律词边界预测模型和韵律短语边界预测模型。 (b)应用基于二叉树结构的路径裁剪策略的韵律词识别模型 在对树结构与韵律结构进行对比分析的过程中,本文发现:韵律词在树结构中往往表现为一种完整子树的形式,且两者的一致性很高。利用这一特征,本文提出了一种二叉树结构与最大熵模型相结合的韵律词识别方法。即在利用最大熵模型进行韵律词识别的解码过程中,引入基于二叉树结构的路径裁剪策略,对搜索空间中的候选路径进行裁剪。实验结果显示,这种裁剪策略不仅大大缩小了搜索空间,提高了系统运行效率,更关键的是它使得模型的韵律词识别效果有了大幅的提高。 (2)基于语音的韵律边界识别 在语音合成和语音识别领域,韵律标注工作需要耗费大量的人力,减少手工劳动对于语音合成中语料库的韵律标注以及语音识别中韵律单元的自动划分都有重要意义。针对这个问题,本文讨论了一种结合语音韵律特征、二叉树特征、其它语言学特征,基于真实语音进行韵律短语间停顿自动检测和识别的方法。本文分别利用分类回归树和最大熵两种方法建立了识别模型,并取得了较好的停顿识别效果。 论文主要的创新性成果如下: (1)提出了使用汉语书面语中的标点符号位置模拟韵律边界的思想和方法。即使用句子内部各个语法词边界邻接标点符号的可能性大小估计该位置作为韵律边界的概率。基于这一思想,能够避免人工标注大规模训练语料的困难。 (2)提出了基于二叉树结构的汉语韵律边界预测模型。依据任意汉语句子内部各个语法词边界作为韵律边界的概率估计值大小,将其表示成二叉树形结构;利用二叉树结构并结合韵律学知识,实现韵律词和韵律短语边界的自动预测。 (3)发现了韵律单元在二叉树结构中的表现形式。通过韵律结构与树结构的对比,本文发现韵律词和韵律短语在其所在句子的二叉树结构中,往往表现为一种完整的子树的形式;而且,其中韵律词和子树的一致性非常高。 (4)提出了应用基于二叉树特征的路径裁剪策略的韵律词识别模型。利用韵律词与完整子树之间的高同构性,依据二叉树结构对模型解码搜索空间中的候选路径进行裁剪,然后使用最大熵模型求解最优路径作为识别结果,从而改进和提高模型的韵律词识别性能。
其他文献
随着Internet技术的高速发展,我们已经进入大数据时代,几乎所有的事物都与数据有关。如今,各种应用会使每个月都产生 TB级别甚至 PB级别的数据,与此同时,越来越多的需求使每天需要
不确定性人工智能已经成为当前人工智能研究的热点和重大的前沿课题之一。模糊神经网络作为处理不确定性问题的重要工具,是人工神经网络和模糊逻辑系统的必然的互补式的结合,
目前的协同设计系统大部分都要求设计者在同一个系统上进行每一个零件的详细设计并进行装配,而且采用C/S结构。这个系统的明显缺点是庞大复杂,维护量大,对网络硬件和传输条件
在高动态范围图像中,原始图像辐射度数据的动态范围远大于显示设备的响应动态范围。高动态范围图像在全局照明、真实感绘制、遥感图像、数字相机等领域具有较好的应用前景。
人脸识别是当前一个热点研究领域,它作为一种身份验证的技术在信息安全,出入控制等领域有着广泛的应用前景,但同时人脸识别作为一个经典的高维小样本问题,对模式识别算法的性
随着计算机软硬件技术、半导体技术、电子技术、通讯技术和网络技术等飞速的发展,人类社会进入了后PC时代。近年来在生物识别技术领域中,声纹识别技术以其独特的方便性、经济
今天,我们已被各种数据所淹没。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是
计算机技术和网络技术的飞速发展给构建高质量的EIMS系统提供了可靠的保证,同时也不断地在其应用广度和深度上加以完善和更新,成为许多企业经营管理中不可缺少的现代化支持工
入侵检测技术能够识别恶意破坏一个计算机或网络系统安全的行为,在系统受到危害之前拦截和响应入侵。生物免疫系统的主要功能是识别并清除抗原,实现免疫防卫功能。因此免疫系
随着移动终端的发展,4G网络的普及以及 WiFi覆盖范围的不断扩大,人们可以随时随地的享受流媒体服务,这导致互联网上的流媒体数据传输量急剧增加,给现有的流媒体系统带来了巨大的