无标注的中文长篇幅语音文语对齐的研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：ywdiy_cn

【摘要】

：

文语对齐（Text-Speech Alignment）是以语音识别系统为基础，对语音和文本在时间上进行强制对齐的过程。近年来，随着互联网的高速发展，网络上的语音和文本资源也越来越多，将该部分语

【作者】

：

王永远

【出处】

：

中国海洋大学

【发表日期】

：

2014年期

【关键词】

：

文语对齐有限状态机语音识别语言模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文语对齐（Text-Speech Alignment）是以语音识别系统为基础，对语音和文本在时间上进行强制对齐的过程。近年来，随着互联网的高速发展，网络上的语音和文本资源也越来越多，将该部分语音和文本在时间上进行对齐是利用该资源的关键，因此文语对齐问题引起了越来越多研究人员的兴趣。文语对齐技术是语音识别领域中的一项关键技术。传统的方法是首先利用语音识别器对原始的语音进行识别，以得到包含时间信息的识别文本，并将该文本与原始文本进行对齐，以得到两者共同的部分。也就是将文本和语音对齐的问题转换成文本与文本的对齐问题。经过对齐后的语音和文本数据可用于声学模型的训练、语音的评价、自动构建语料库、多媒体检索等领域。为了提高文语对齐的准确率和鲁棒性，通常需要以经过大量有标注数据训练的语音识别器为基础。然而，为了得到有标注的训练数据往往需要耗费大量的财力、人力和物力，同时所需要的周期也相对较长，成本较高。本文在论述国内外文语对齐技术发展的基础上，提出了一种不依赖于有标注数据训练的语音识别器的文语对齐算法。利用该算法可以自动的得到语音和文本在时间上对齐的数据，并利用得到的数据训练了一个基于三音素的连续语音识别器，以说明该算法在实际中的应用。本文的主要的研究工作如下：首先，为了摆脱对有标注训练数据的依赖，提出了一种基于开放语音识别引擎（Google Voice Recognition，GVR）和有限状态机语言模型的文语对齐算法，利用该算法能够自动的得到在时间上对齐的语音和文本数据，具体来说，首先是将原始的语音提交给GVR进行识别，以得到识别的结果文件。但是由GVR返回的结果文件中并不包含时间信息，而该时间信息是进行文语对齐的关键。为了得到该时间信息，接着对原始的语音和文本进行了第二次的识别。即利用由原始的语音和文本训练的识别器作为声学模型，并结合基于有限状态机的语言模型对语音进行了重识别，以得到所需要的时间信息，完成文本和语音的对齐。接下来利用得到的对齐语音和文本数据训练一个声学模型，并以该模型为核心，结合并改进了SailAlign算法来对文本和语音进行高效的、迭代的对齐，完成了语料库的自动构建。实验表明，在文本中的噪音为10%以下时，利用该算法得到的语音和文本对齐的准确率达到95%。最后作为一种评估手段，本文利用上述算法中得到的文本和语音数据训练了一个基于三音素的连续语音的中文识别器，用于评估该算法的性能。并且在对语音信号进行特征提取时加入了基音周期的特征，由于基音周期对请浊音有着良好的区分性，使得该识别器的识别率比传统的只是基于梅尔倒谱参数为特征的识别率有了一定的提高。

其他文献

关于刑法增设“故意逃避债务罪”的立法探讨

为了有效打击和遏制各种逃避民事债务的不法行为,切实维护债权人的合法利益和保障社会主义市场经济的健康发展,根据当前我国民法、刑法等法律的任务、目的,运用相关的法学理

期刊

刑事立法债民事债务逃避债务罪

酚妥拉明泵维持治疗新生儿坏死性小肠结肠炎疗效观察

目的探讨酚妥拉明泵维持治疗新生儿坏死性小肠结肠炎(necrotizing enterocolitis,NEC)的疗效。方法选取2014年1月至2015年1月我院新生儿重症监护室收治的68例患有坏死性小肠

期刊

酚妥拉明新生儿坏死性小肠结肠炎输液泵

2005-2014年西安市流行性腮腺炎流行病学分析和防控策略探讨

目的分析西安市流行性腮腺炎流行病学特征,探讨西安市流行性腮腺炎防控策略。方法对2005-2014年西安市流行性腮腺炎发病情况进行描述性分析。结果 2005-2014年西安市共报告流

期刊

流行性腮腺炎流行病学分析

中日海外油气博弈:冲突或合作

作为近邻的日本和中国 ,是世界第二大经济强国和经济增长最快的发展中大国 ,其双边关系的发展态势令人注目。近年来 ,中日两个世界能源消费大国在海外 ,特别是在俄罗斯所展开

期刊

中日关系油气资源博弈合作双赢

北京犬和西施犬及其杂种犬心脏形态的X线评估

椎体测量系统（vertebra scale system，VSS）是从20世纪90年代发展起来的一种评估心脏形态大小的测量方法，其核心是将心脏的长、短轴用从第4胸椎开始的椎体长度表示为椎体心脏比分（v

期刊

北京犬杂种犬心脏形态

《三国演义》回目对偶的分类和表达效果研究

章回小说的体制是我国古代小说发展的一种外在结构样式，回目是章回小说的代表性特征，它的出现取代了以卷次为主的传统小说。《三国演义》作为章回小说的开山之作，其回目具有重要

期刊

回目对偶章回小说三国演义

Notch信号通路中的Jagged1配体在血管形成中的作用

Jagged1是组成Notch信号通路的一种配体,Jagged1/Notch主导的Notch信号通路在血管形成中具有重要的作用。本文对Jagged1/Notch信号通路的结构与活化和Jaggedl在血管形成中的

期刊

信号传导Jagged1/Notch信号通路综述

相控阵雷达技术及其数据处理方式的研究

为研究相控阵雷达技术及其数据处理方式,用于实际业务,通过分析相控阵雷达技术原理、特点和应用范围,以及数据处理方式的研究,得出:相控阵雷达特别是有源相控阵雷达,具有波束

期刊

相控阵雷达数据处理

早产儿视网膜病变筛查情况分析

目的:探讨早产儿视网膜病变(retinopathy of prematurity,ROP)的发生率和危险因素。方法:回顾分析2006年1月1日至2007年9月30日期间出生的425例出生体重在2000g以内或孕周<34

期刊

视网膜病变早产儿危险因素

无标注的中文长篇幅语音文语对齐的研究

与本文相关的学术论文