论文部分内容阅读
文语对齐(Text-Speech Alignment)是以语音识别系统为基础,对语音和文本在时间上进行强制对齐的过程。近年来,随着互联网的高速发展,网络上的语音和文本资源也越来越多,将该部分语音和文本在时间上进行对齐是利用该资源的关键,因此文语对齐问题引起了越来越多研究人员的兴趣。文语对齐技术是语音识别领域中的一项关键技术。传统的方法是首先利用语音识别器对原始的语音进行识别,以得到包含时间信息的识别文本,并将该文本与原始文本进行对齐,以得到两者共同的部分。也就是将文本和语音对齐的问题转换成文本与文本的对齐问题。经过对齐后的语音和文本数据可用于声学模型的训练、语音的评价、自动构建语料库、多媒体检索等领域。为了提高文语对齐的准确率和鲁棒性,通常需要以经过大量有标注数据训练的语音识别器为基础。然而,为了得到有标注的训练数据往往需要耗费大量的财力、人力和物力,同时所需要的周期也相对较长,成本较高。本文在论述国内外文语对齐技术发展的基础上,提出了一种不依赖于有标注数据训练的语音识别器的文语对齐算法。利用该算法可以自动的得到语音和文本在时间上对齐的数据,并利用得到的数据训练了一个基于三音素的连续语音识别器,以说明该算法在实际中的应用。本文的主要的研究工作如下:首先,为了摆脱对有标注训练数据的依赖,提出了一种基于开放语音识别引擎(Google Voice Recognition,GVR)和有限状态机语言模型的文语对齐算法,利用该算法能够自动的得到在时间上对齐的语音和文本数据,具体来说,首先是将原始的语音提交给GVR进行识别,以得到识别的结果文件。但是由GVR返回的结果文件中并不包含时间信息,而该时间信息是进行文语对齐的关键。为了得到该时间信息,接着对原始的语音和文本进行了第二次的识别。即利用由原始的语音和文本训练的识别器作为声学模型,并结合基于有限状态机的语言模型对语音进行了重识别,以得到所需要的时间信息,完成文本和语音的对齐。接下来利用得到的对齐语音和文本数据训练一个声学模型,并以该模型为核心,结合并改进了SailAlign算法来对文本和语音进行高效的、迭代的对齐,完成了语料库的自动构建。实验表明,在文本中的噪音为10%以下时,利用该算法得到的语音和文本对齐的准确率达到95%。最后作为一种评估手段,本文利用上述算法中得到的文本和语音数据训练了一个基于三音素的连续语音的中文识别器,用于评估该算法的性能。并且在对语音信号进行特征提取时加入了基音周期的特征,由于基音周期对请浊音有着良好的区分性,使得该识别器的识别率比传统的只是基于梅尔倒谱参数为特征的识别率有了一定的提高。