语音Corpus的自动构建和语音最小化标注的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：choster

【摘要】

：

目前世界上最新的文语转换系统（Text-to-Speech）虽然能够合成可以很容易理解的话语，但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在

【作者】

：

张志楠

【机构】

：

中国海洋大学

【出处】

：

中国海洋大学

【发表日期】

：

2013年期

【关键词】

：

文语转换系统句子切分语音合成强制对齐

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前世界上最新的文语转换系统（Text-to-Speech）虽然能够合成可以很容易理解的话语，但是缺乏自然语言中所蕴含的韵律特征。这是由于单句录音构建的语音语料库所训练出来的模型在合成表现力上差的缘故。例如卡内基梅隆大学的ARCTIC语音语料库。建立一个含有丰富的韵律特征以及上下文信息的ARCTIC语音语料库。建立一个蕴含丰富的韵律信息以及上下文特征的语音语料库是合成具有高自然度以及良好表现力的语音的先决条件。然而，构建此类语音语料库往往需要耗费大量的人力，物力和财力，而且构建周期也相对较长。另外一个可替代的方法就是利用网络上现有的长篇幅多段落的语音预料作为训练数据的来源，例如，新闻播报或者是VoiceBook，这些数据中多数都蕴含有丰富的韵律特征以及上下文信息，其中包括重音，音调以及停顿等特征。但是，处理此类音频数据会面临长篇幅语音的自动切分，以及有效音频片段的自动抽取等问题。由此说来，一种语音语料库的自动构建技术提出，这种技术能够将网络上现已有的大量的音频数据以及对应文本中真正可用的部分自动抽取出来，用作训练语音语料，这将会大大缩短语音语料库的构建周期。除此之外，还应该有一种针对长篇幅语音的全自动的句子切分算法，能够将上面已经被正确抽取出来的篇幅语音和文本切分成独立的句子，这样一来，不仅能够大幅度的降低构建成本，节约人力，物力等资源，而且对于最终的语音合成表现力也会有大幅度的提高。按照这个思路，本论文在针对基于HMM的语音合成系统中的语音语料库的自动构建技术和长篇幅的语音句子全自动切分技术方面进行了深入而系统的研究，本文具体的研究工作和研究成果按照如下展开：首先，本文提出了一种长篇幅语音句子全自动切分技术。该算法首先利用基于HMM的Force-alignment无监督算法在频谱参数的基础上做初始迭代，形成一个精确的初始标注集，再利用半监督学习的方法在韵律参数的基础上对上面无标注的句子切分算法所得到的少量精确标注集进行自动扩充，以达到最大化精确标注集合的目的，然后，经过一层检查机制针对得到的句子边界标注集再做进一步的检查以确保结果的正确性。上述整个过程是通过建立一种基于时间轴的迭代机制进行相互迭代来完成。实验表明，通过该算法句子切分准确率能够达到96.2%。最后，再依据得到的正确的句点将原始篇幅语音切分成更小的段落或是句子的集合。其次提出了一种基于GoogleVoice的文语自动对齐技术。这是建立在GoogleVoice上的一种依赖于识别的方法。通过将识别结果跟原始文本相对照，并采用一种将模式匹配和强制对齐（Force-alignment）技术相结合的技术将其中真正可用的训练语音语料抽取出来，与此同时，一种迭代机制也被提出并用于识别过程以求最大化将有效部分从原始音频和文本中抽取出来，并最终将其合并成完整的篇幅来构建语音语料库。最后作为一种评估手段，本文又提出了一种基于HTK的中文孤立词识别系统，用于评估上面提出的语音语料库的自动构建方法的性能。实验表明我们提出的技术方法能在无人工干预的情况下快速地，自动的构建可用于Trainable TTS的语音语料库。

其他文献

基于GPU的三维可视化基础算法研究及其应用

三维可视化是科学计算可视化的一部分，它的目标是将科学计算、工程学、医学等领域的数据以三维图像的形式呈现给用户，相比二维图像，它能够提供更加直观、准确和丰富的信息。三维

学位

三维可视化图形处理器移动立方体光线投射绘制算法

基于多层CRFs的汉语介词短语识别研究

介词短语是汉语中一种重要的短语类型,在汉语中占有较大的比例。介词短语的正确识别可以简化句子结构；缩小中心动词的选择范围；降低句法分析的难度。基于介词短语识别的重要性,

学位

介词短语识别条件随机场模型多层方法基于转换的错误驱动学习

基于应用优先级的虚拟机实时迁移技术研究

随着虚拟化技术的高速发展，虚拟机实时迁移技术已经广泛应用于系统维护，负载均衡，数据备份，容错，节能等领域。目前，虚拟机实时迁移主要使用内存的预拷贝算法。在虚拟机中内存写速率

学位

虚拟机实时迁移应用优先级停机时间

基于Gabor特征的人脸识别

人脸识别作为一种重要的生物特征识别技术，在身份认证中扮演着重要角色。在人脸识别过程中，图像预处理和特征提取占有重要的地位。光照处理和人脸几何矫正是图像预处理的主要内

学位

人脸识别RetinexASEFGabor变换主方向模式白化PCA

在线文件系统检查的研究与实现

尽管soft update、日志、事务、错误校验码、数据备份等机制的使用，让文件系统的可靠性得到了很大的提高，但是文件系统错误仍然时有发生。传统上，我们依赖于如fsck这样的检查工

学位

在线文件系统检查文件系统一致性在线镜像故障分类

基于龙芯3A的并行化动态二进制翻译中原子指令研究

由于IT行业的持续发展和人们对各种程序的性能的要求持续提高，处理器的研究也在持续发展，处理器的运算速度也随之持续上升。单核时期，Mooreslaw反应了处理器的发展规律，采用增加

学位

多核处理器动态二进制翻译原子指令QEMU并行化

无线传感网络中速率-可靠性-寿命的协同优化研究

无线传感网络是一种资源有限的无线自组织网络，通常部署在恶劣环境条件下，节点的通信性能较差，其传输功率有限，感知信息难以准确可靠的传回到汇聚节点。因此，如何使资源有限的传感

学位

无线传感网络网络效用最大化速率分配可靠性网络寿命随机信道

基于移动预测的移动自组织网络高效路由研究

移动自组织网络中，节点随机移动会引起网络拓扑频繁地、不可预知地变化，进而导致节点之间的通信链路断开，路径失效，带来大量的路由重建，耗费了有限的网络资源。然而，研究表明，节点移

学位

移动自组织网络路由开销曼哈顿移动模型数据转发节点移动性链路质量

基于速率控制的Ad Hoc网络协作式MAC协议研究

移动Ad Hoc网络是一种由多个不依靠基础设备而独立运行的无线终端组成的多跳分布式自治网络。近年来,随着通信技术的不断发展和硬件设备性能的不断完善,Ad Hoc网络逐渐引起广

学位

移动Ad Hoc网络速率控制协作通信协作节点选择算法

基于虚拟MIMO的无线传感器网络研究

大量的具有无线通信功能的各种传感器节点组成了新一代的无线传感器网络，这些节点采用多跳方式通信，并且可以构成自组织无线网络。在社会生活、环境监测、航空航天、军事国防等

学位

无线传感器网络多入多出技术路由协议组网方式网格位置分簇算法

语音Corpus的自动构建和语音最小化标注的研究

与本文相关的学术论文